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六 可 以 控制 传统 李 克 特 方法 带 来 的 反应 偏差 , 被 广泛 应 


用 于 非 认 知 测验 中 , 而 迫 选 测验 的 传统 计 分 方式 会 产生 自 模式 数据 , 这 种 数据 由 于 不 适合 于 


个 体 间 的 比较 , 一 直 备 受 批评 。 近 年 来 , 多 种 迫 选 IRT 模型 的 发 展 使 研究 者 能 够 从 迫 选 测验 


中 获得 接近 常 模 性 的 数据 


d 


PRIETA 


究 者 与 实践 人 员 对 迫 选 IRT 模型 的 兴趣 。 首 先 ， 依 


据 所 采纳 的 决策 模型 和 题目 反应 模型 对 6 种 较为 主流 的 迫 选 IRT 模型 进行 分 类 和 介绍 。 然 


后 ， 从 模型 构建 思路 、 参 数 估 计 方 法 


两 个 角度 对 各 模型 进行 比较 与 总 结 。 其 次 ， 从 参数 不 变 


性 检验 、 计 算 机 化 自 适 应 测验 (computerized adaptive testing, CAT) 和 效 度 研究 3 个 应 用 研究 


方面 进行 述评 。 最 后 提出 未 来 研究 可 以 在 模型 拓展 、 参 数 不 变 性 检验 、 迫 选 CAT 测验 和 效 


度 研究 4 个 方向 深入 。 
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心理 测评 可 依据 测量 的 内 容 分 为 认 知 测验 和 非 认 知 测验 。 认 知 测验 测量 个 体 认 知 能 
如 数值 计算 能 力 。 这 种 测验 通常 具有 标准 答案 , 答对 即 得 分 ， 总 分 越 高 代表 其 相应 的 能 力 越 
高 。 非 认 知 测验 是 了 解 个 体 的 性 格 特点 、 价 值 观 和 态度 倾向 等 方面 最 重要 的 方法 之 一 ,被 广 
泛 应 用 于 临床 心理 诊断 、 职 " 业 生 涯 规划 、 人 事 决 策 中 ， 有 相当 多 的 效 度 研究 证 明了 性 格 对 


工作 绩效 有 很 好 的 预测 效力 (SHL, 2018; Sitser et al., 2013; Hurtz & Donovan, 2000)。 与 认 知 


测验 不 同 的 是 ， 大 部 分 非 认 知 类 的 心理 


scale)， 其 要 求 个 体 每 次 独立 地 评价 


EE 测评 通常 使 用 李 克 特 形式 的 等 级 评定 量 表 (rating 


| 


个 题目 (如 , 我 是 一 个 做 事 有 条 理性 的 人 )， 从 最 不 符合 
我 -1 到 最 符合 我 -5(5 级 李 克 特 ) 中 选择 与 自己 最 接近 的 一 项 , 答案 没有 对 错 之 分 。 当 在 应 聘 、 


选拔 等 高 利害 的 测评 情境 中 使 用 此 种 题 型 的 量 表 时 ， 个 体 很 容易 有 意 地 操控 某 些 题目 (如 体 


现 高 责任 心 、 乐 观 性 的 题目 ) 的 分 数 使 自 


oy 


rail 
OT 


己 看 起 来 更 符合 组 织 期 望 ， 即 使 自己 并 不 是 这 样 的 
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人 。 这 种 可 能 的 倾向 被 称 为 作假 、 装 好 ， 由 此 得 到 的 测评 结果 便 失 去 了 对 人 才 的 区 分 效力 ， 

严重 损害 了 测验 的 公平 性 。 

为 了 消除 或 降低 作假 倾向 的 影响 ， 通 常会 采用 事前 控制 或 事后 控制 技术 ( 骆 方 , 张 厚谊 

2007)。 事 后 控制 技术 包括 嵌入 作假 识别 量 表 、 使 用 双 因 子 模型 控制 作假 因素 (Brown et al., 

2017; Hendy et al., 2021)、 使 用 混合 Rasch 模型 甄别 作假 反应 模式 人 群 ( 骆 方 , 张 厚 肾 , 2007) 和 

基于 历史 数据 建立 决策 树 模型 判别 作假 人 群 (Ziegler et al., 2012) 等 ， 其 目的 都 是 识别 出 作假 

数据 ， 以 避免 依据 作假 数据 做 相关 决策 。 这 些 方法 均 涉 及 的 一 个 关键 问题 是 如 何 保证 较 高 的 

识别 准确 率 , 因为 误 将 诚实 的 个 体 判 为 造假 是 非常 不 可 取 的 , 而 相对 于 处 理 已 经 受到 污染 的 

数据 , 事前 控制 技术 则 在 阻止 个 体 在 答题 前 或 答题 中 作假 以 获得 无 污染 数据 , 这 类 技术 包括 

警告 、 假 渠道 技术 (bogus pipeline) 和 迫 选 测验 。 警 告 是 其 中 最 容易 操作 的 方法 ， 分 为 作假 识 

> 别 警 告 和 后 果 警 告 ， 前 者 为 告知 个 体 可 以 识别 到 他 们 回答 中 的 任何 不 诚实 行为 ,后 者 为 告知 

个 体 不 如 实 作答 会 带 来 什么 后 果 ，Dwight 和 Donovan(2003) 的 元 分 析 结 果 表 明 后 果 警 告 才 

能 起 到 抑制 作假 的 作用 , 而 在 他 们 后 来 的 研究 中 进一步 指出 了 两 种 警告 方式 一 起 使 用 才能 产 

生 统计 学 上 有 意义 的 结果 。 另 外 ， 当 个 体 被 警告 时 ， 洪 在 的 作假 者 可 能 会 决定 在 作答 时 不 那 

么 极端 ,或 者 为 了 看 起 来 更 诚实 而 选择 一 些 “ 错 误 ” 的 答案 ， 即 警告 可 能 会 诱发 更 加 老练 的 作 

假 , 那么 警告 并 没有 实质 性 的 改变 个 体 作 假 的 机 制 。 警告 还 可 能 会 造成 被 试 在 测验 过 程 中 焦 

虚 程 度 提升 等 一 些 负面 影响 , 因此 只 警告 那些 表现 出 作假 趋势 的 被 试 被 认为 是 更 好 的 解决 办 

法 ， 而 决策 树 模 型 可 用 于 决定 何 时 警告 作假 者 (Ziegler et al., 2012)。 假 渠道 技术 是 通过 故意 

全 引导 个 体 以 为 其 在 进行 测 谎 实 验 (实则 是 在 进行 真实 测评 )， 以 迫使 其 做 出 最 真实 的 反应 ， 即 

FE ARKE ET Nai E RET. AAI PARE LES aha AE ESL, 有 违 伦 
理 道德 ， 因 此 备 受 谴 责 (Aguinis & Handelsman, 1997). 

迫 选 测验 要 求 个 体 在 一 组 称许 性 水 平 相似 的 题目 中 强制 选择 最 符合 自己 和 最 不 符合 自 

己 的 两 项 , 或 对 题目 进行 偏好 排序 , 个 体 无 法 对 所 有 题目 都 给 予 积 极 的 选择 。 由 于 题目 的 称 

许 性 相似 ， 没 有 一 个 题目 比 其 他 题目 更 可 取 ， 那 么 个 体 根据 社会 称许 性 做 选择 /作假 的 可 能 

性 就 会 降低 。 相 比 李 克 特 式 量 表 ， 个 体 更 不 易 在 迫 选 测验 上 作假 (Saville & Willson, 1991; 

Jackson et al., 2000; Wetzel et al., 2020)。 强 制 选择 的 作答 形式 也 消除 了 李 克 特 式 量 表 其 他 的 

一 些 潜在 作 管 反应 偏差 (responses biases)， 如 光环 效应 ， 趋 中 倾向 ， 极 端 倾向 ， 默 许 ( 总 是 选 

择 同 意 或 不 同意 ) 等 。 另 外 ， 迫 选 测验 形式 能 有 效 降低 分 数 在 社会 称许 方向 的 膨胀 性 (Cao & 

Drasgow, 2019)， 也 没有 明显 降低 个 体 的 作答 积极 性 (Sass et al., 2020) 或 给 个 体 带 来 情绪 或 认 

知 上 的 不 利 影响 (Zhang etal.,2020)。Bartram(2007) 的 一 项 元 分 析 结 果 表 明 ， 相 比 李 克 特 式 评 


x 
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定量 表 , 由 迫 选 测验 获得 的 评估 结果 对 工作 绩效 的 预测 效 度 可 以 提升 50%。 但 迫 选 测验 的 传 
统计 分 方式 会 产生 自 模 式 数 据 (ipsative data)， 分 数 的 高 低 体现 了 个 体 在 各 个 维度 上 内 部 自 比 
的 排序 结果 ,这 种 数据 形态 的 特殊 性 限制 了 迫 选 测验 在 个 体 间 比 较 场景 (如 人 才 选 拔 ) 中 的 
应 用 与 发 展 。 近 十 几 年 来 , 几 种 迫 选 测量 模型 的 发 展 使 研究 者 能 够 从 迫 选 测验 中 获得 接近 常 
模 性 的 潜在 特质 估计 结果 , 克服 了 自 模 式 数 据 问 题 后 的 迫 选 测验 似乎 成 为 了 更 有 应 用 潜力 的 
抗 作假 技术 。 

本 文 骨 在 系统 地 介绍 迫 选 测验 的 题目 类 型 、 特 点 及 传统 计 分 方式 和 自 模 式 数据 的 次 端 ， 
然后 从 题目 反应 模型 和 决策 模型 两 个 方向 ， 介 绍 与 评价 6 种 迫 选 RT 模型 ， 其 次 从 模型 构 
建 思路 、 参 数 估 计 方 法 和 应 用 研究 现状 几 个 方面 对 比分 析 6 种 模型 , 最 后 从 迫 选 模 型 实践 的 
角度 提出 4 个 未 来 研究 的 展望 方向 :模型 拓展 研究 、 参 数 不 变 性 研究 、 迫 选 CAT 研究 和 效 


度 研 究 。 


2 ”人 迫 选 测验 设计 与 传统 计 分 方式 


迫 选 测验 通常 由 测量 不 同 维度 的 数 个 迫 选 题 块 (item block) 组 成 。 题 块 内 由 固定 数量 的 来 
自 不 同 或 相同 维度 的 、 社 会 称许 性 水 平 相似 的 题目 /描述 (itemystatements) 组 成 ， 题 目 /描述 即 
为 维度 (也 即 潜在 特质 ) 的 外 显 指 标 。 同 一 题 块 的 题目 通常 分 别 测量 不 同 维度 ， 因 此 也 被 称 


为 多 维 迫 选 题 (multidimensional forced-choice, MFC). 


2.1 人 迫 选 测验 设计 


根据 Hontangas 等 (2015) 的 分 类 , 迫 选 题 块 有 3 种 常见 的 形式 : PICK、RANK 和 MOLE。 
这 种 分 类 主要 体现 在 指导 语 类 型 上 。PICK( 表 1) 要 求 个 体 从 题 块 中 选择 最 符合 自己 的 一 项 。 
RANK( 表 2) 要 求 个 体 对 题目 进行 从 最 符合 到 最 不 符合 的 完全 排序 。MOLE( 表 3) 要 求 个 体 分 


别 选 择 出 最 符合 自己 (MOst) 和 最 不 符合 自己 (LEast) 的 一 项 。 超 过 3 个 题目 的 MOLE 题 型 也 


称 部 分 排序 题 (partial rankings)。 
表 1 PICK MH 


指导 语 : 从 以 下 两 个 描述 中 选择 最 符合 自己 的 一 项 


题 块 最 符合 
A 寻找 事物 的 不 足 V 


B 探索 陌生 的 领域 


#2 RANK 题 型 
指导 语 : 对 以 下 描述 进行 排序 
题 块 排序 
A 寻找 事物 的 不 足 3 
B 探索 陌生 的 领域 1 
C 基于 数据 分 析 做 决定 2 
表 3 MOLE 题 型 
站 导语 ， 从 以 下 描述 中 选择 最 符合 自己 和 最 不 符合 自己 的 一 项 
Ik 最 符合 最 不 符合 
A 寻找 事物 的 不 足 
B 探索 陌生 的 领域 N 
C 基于 数据 分 析 做 决定 
D 做 注重 精确 性 的 工作 V 


题 块 大 小 即 题 块 内 包含 多 少 个 题目 /描述 选项 , 2~4 个 题目 的 题 块 大 小 是 最 为 常见 的 。 为 
节省 篇 幅 ， 在 后 文中 将 结合 指导 语 类 型 和 题 块 大 小 对 迫 选 题 型 做 简称 ， 如 称 3 题目 题 块 的 
RANK 题 型 为 RANK-3。 题 块 大 小 会 影响 个 体 选择 任务 负荷 的 高 低 ，PICK-2 仅 需 个 体 将 2 
个 题目 对 比 一 次 即 可 ,题目 越 多 , 个 体 需 要 进行 题目 间 对 比 的 次 数 越 多 ,使 用 大 题 块 会 增加 
选择 任务 的 认 知 复杂 性 ， 可 能 对 受 教 育 程度 较 低 或 阅读 能 力 较 差 的 人 有 不 利 影响 (Brown,， 


~~ 


2016)。 目 前 已 有 的 人 迫 选 测验 中 较为 常用 的 题 块 类 型 有 : PICK-2 (Oswald et al., 2015), RANK- 


3 ( 连 旭 等 , 2014; SHL, 2018), MOLE-4(SHL, 1997)。 其 中 RANK-3 既 没 有 MOLE-4 的 高 认 


知 负荷 ， 也 比 PICK-2 更 加 高 效 ， 且 提供 的 信息 量 也 最 大 (Hontangas et al., 2015; Joo et al., 


2018)。 


另外 还 有 Q 分 类 (Q-Sort)(Block, 1963) 这 种 特殊 的 迫 先 题 型 ， 它 是 将 问卷 中 所 有 的 题目 
(如 超过 30 个 题目 ) 组 合 为 一 个 大 型 题 块 一 起 呈现 给 个 体 ， 然 后 要 求 个 体 逐 步 地 将 每 个 题目 
分 配 到 少数 几 个 偏好 等 级 中 , 如 先 从 所 有 题目 中 选择 出 最 符合 自己 的 几 个 题目 ， 然 后 从 剩 下 
的 题目 中 选择 最 不 符合 的 几 个 , 直至 完成 所 有 题目 的 分 类 。 这 种 方法 需要 个 体 一 次 处 理 大 量 
描述 ， 因 此 适用 于 词汇 型 的 题目 (Brown, 2016). 
人 迫 选 测验 组 卷 时 ， 需 考虑 的 首要 原则 是 题目 称许 性 的 匹配 , 这 是 保证 测验 具有 抗 作假 间 
力 的 关键 步骤 ， 然 后 才 是 题 块 大 小 、 指 导语 等 外 显 因 素 。 通 常会 计算 题目 称许 性 的 平均 绝对 
差 值 来 衡量 匹配 程度 , 差 值 越 大 代表 越 不 匹配 , 然而 这 种 仅 用 均值 判断 的 方式 会 忽略 不 同 评 
价 者 对 同一 题目 称许 性 评价 的 差异 。Pavlov 等 人 (2021) 提 出 了 一 种 蔡 代 性 指标 :ITA(Inter- 


item agreement) 指 数 , 该 指数 将 BP 指数 和 AC 指数 (Gwet, 2014) 纳 入 到 题目 称许 性 的 匹配 中 ， 


可 更 好 地 匹配 那些 原本 在 称许 性 均值 上 没有 差异 的 题目 。 实 践 人 员 可 借助 R(R Core Team, 


2021) 包 autoFC (Li et al., 2021) 计 算 ILA 指数 并 进行 自动 组 卷 。 


2.2 ”传统 计 分 方式 与 自 模式 数据 


2.2.1 传统 计 分 方式 


通常 , 迫 选 测验 的 传统 计 分 方式 是 将 每 个 题 块 中 被 选 为 最 符合 或 排序 最 
最 不 符合 或 排序 最 低 的 题目 计 -1 分 ， 未 选择 或 中 间 等 级 的 题目 计 0 分 ， 最 
目 分 数 进行 累加 得 到 维度 总 分 。 


题 


目的 描述 方向 将 影响 各 维度 题目 计 分 的 方式 ， 负 向 描述 的 题目 在 计 分 时 需 乘 以 -1 进 


行 分 值 的 转换 ， 如 负 向 描述 (如 : 我 时 常 预 期 消极 的 结果 ) 被 选 为 最 符合 时 需 
描述 的 称许 性 通常 很 低 , 所 以 很 难 匹 配 不 同 计 分 方向 题目 的 称许 性 。 如果 将 


的 正 负 向 题目 放 在 一 个 题 块 里 ,个 体 很 容易 选择 正 向 题目 为 更 符合 ,尤其 是 在 高 利害 情境 中 ， 


高 的 题目 计 1 分 ， 
后 将 各 维度 下 题 


计 为 -1 分 。 负 向 


称许 性 相差 较 大 


几乎 所 
EREN 


被 试 都 会 选择 看 起 来 更 积极 的 选项 (Biirkner et al., 2019), mAr A 
j 验 丧失 抗 作 假 的 作用 ， 因 而 实际 应 用 中 很 少 使 用 混合 计 分 型 的 题 块 。 


测量 精度 问题 ， 


2.2.2 自 模式 数据 及 其 问题 


以 表 3 的 MOLE-4 题 型 为 例 ， 无 论 个 体 如 何 选择 ， 其 在 每 个 题 块 上 所 


不 符合 的 题目 都 将 分 别 计 为 1 和 -1 分 ， 那么 各 个 题 块 


验 上 的 总 分 也 为 0。 由 此 可 见 ， 各 个 维度 的 得 分 是 互相 依赖 的 ， 有 高 分 维度 


维度 ， 不 会 出 现 所 有 维度 得 分 同 高 或 同 低 的 情况 ,这 种 数据 则 为 自 模式 数据 。 与 之 相对 的 是 
常 模 性 数据 (normative data)， 如 李 克 特 式 量 表 的 数据 ， 不 同 个 体 对 每 个 题目 


立 的 , 评价 分 数 互 不 影响 ， 因 此 测验 的 总 分 是 不 固定 的 。 自 模式 数据 内 部 的 


TARI 


上 验 理论 的 基本 假设 之 一 , 即 误差 方差 的 独立 性 , 这 对 人 迫 选 测验 分 数 


选 出 最 符合 和 最 


内 题目 的 得 分 和 均 为 0， 进而 在 整个 测 


则 必然 存在 低 分 


的 评定 是 互相 独 
分 数 依赖 性 违反 
的 统计 分 析 和 解 


释 都 有 影响 (Baron, 1996)， 如 信和 度 分 析 、 方 差分 析 、 回 归 分 析 等 ， 它 会 增加 犯 1 类 错误 的 概 
率 ， 同 时 也 会 影响 统计 检验 力 ( 王 珊 等 , 2014)。 同 时 ， 自 模式 数据 对 维度 关 


测验 的 结构 效 度 与 效 标 关 联 效 度 (Brown & Maydeu-Olivares, 2013)， 并 无 法 进行 因子 分 析 


(Closs, 1 


系 的 扭曲 会 污染 


996)。 最 后 ， 将 自 模式 数据 做 常 模 化 的 分 数 解释 ， 进 行 个 体 间 对 比 


是 不 妥 的 ， 这 可 


能 会 扭曲 个 体 的 真实 情况 , 如 在 兴趣 测验 


认为 直接 进行 人 群 间 比 较 会 严重 高 估 


人 迫 选 测验 所 测 的 维度 数量 及 维度 间 的 关系 对 数据 


研究 表明 当 维 度数 量 低 于 10 个 时 或 


中 , 自 比 结果 仅 代表 个 体内 部 的 倾向 性 排序 ，Closs 
或 低估 个 体 真实 的 兴趣 特征 。 
居 自 模 程度 的 影响 较 大 。Bartram(1996) 的 
者 维度 间 的 相关 性 达到 0.3 及 以 上 时 ， 自 模式 分 数 结 

将 不 可 靠 , 且 信 度 会 随 维度 个 数 的 降低 和 维度 间 相 关 性 的 提高 而 大 幅 


度 降 低 。Clemans(1966) 


也 指出 低 维度 数量 的 迫 选 测验 意味 着 更 严重 的 自 模式 数据 问题 。Baron(1996) 指 出 如 果真 实 
分 数 均匀 地 分 布 在 平均 值 周围 , 那么 自 模式 分 数 与 常 模 性 分 数 就 会 相似 , 反之 如 果 多 数 维度 


高 于 或 低 于 平均 值 , 自 模式 分 数 与 常 模 性 分 数 则 


TARA AY, 但 这 种 区 另 


维度 数量 的 增多 而 下 降 , 因为 人 群 中 出 现 多 个 维度 分 数 同 高 或 同 低 的 可 
似 的 ,， 当 维度 间 的 相关 关系 均 为 高 正 相 关 或 高 负 相关 时 ， 出 现 分 数 同 高 或 同 低 的 可 能 性 也 会 


变 高 ， 当 维度 间 的 相关 关系 有 正 有 负 时 , 出现 同 高 或 同 低 这 种 高 度 偏 态 的 维度 特征 的 可 能 性 


1 会 随 着 测验 所 测 的 
EE 性 会 大 幅 下 降 。 相 


就 低 了 很 多 。Saville 和 Willson(1991) 的 研究 也 证 明 当 维度 数量 超过 30 个 有 旦 维度 内 部 相关 性 


较 低 时 ,由 自 模式 数据 计算 的 测验 信和 度 达 到 了 可 接受 范围 , ELE 
据 相 似 ,此 时 使 用 常 模 化 的 自 模式 数 所 


综 上 , 自 模 式 数 据 的 诸多 问题 限 各 
自 横 性 问题 ， 但 可 以 看 到 ， 传 统计 分 方式 是 把 个 体 对 题目 的 排序 结果 当 
它 并 未 体现 个 体 比 较 决 策 的 心理 过 程 , 应 用 在 迫 选 测验 上 


度 的 性 状 恢复 性 与 常 模 性 数 
时 进行 分 数 解释 和 个 体 间 的 比较 是 可 行 的 。 因 此 ， 增 加 
测验 的 维度 数量 是 抵抗 自 模式 数据 特点 较为 有 效 的 传统 做 法 之 一 ， 但 也 只 是 折 中 的 办 法 。 
上 了 迫 选 测验 的 应 用 ,虽然 可 通过 增加 维度 等 方法 抵抗 


作对 其 的 绝对 评分 ， 


问题 ， 需 要 从 根本 上 跳出 传统 计 分 方式 ,采用 现代 测量 模型 来 反映 个 体 在 回答 迫 选 题目 时 的 


决策 过 程 (Brown & Maydeu-Olivares, 


3 ”用 于 迫 选 测验 的 IRT 计 


潜在 特质 分 数 ， 从 而 实现 恢复 个 体 分 


》 数 的 常 模 性 。 


分 模型 


在 过 去 的 十 几 年 间 ， 众 多 适用 于 


F 迫 选 测验 的 IRT 计 分 模型 


2013)， 从 外 显 的 比较 结果 中 获得 景 


是 不 恰当 的 。 要 解决 自 模式 数据 的 
乡 响 决策 过 程 背后 的 
!4 被 开发 出 来 以 建立 外 显 作答 


与 潜在 特质 的 关系 ， 从 而 获得 具有 和 常 模 性 特点 的 潜在 特质 分 数 进而 实现 个 体 间 分 数 的 比较 。 


其 中 被 研究 与 应 用 最 为 广泛 的 模型 之 一 是 由 


Brown(2011)#2 H A) E 


斯 顿 IRT 模型 (Thurstonian 


Item Response Theory, TIRT), 由 Stark 等 人 (2005) 提 出 的 MUPP(Multi-Unidimensional Pairwise 


Preferences) 框 架 也 因 其 灵活 性 在 近 几 年 引起 了 较 多 而 


究 者 的 关注 ， 并 发 展 出 了 2 个 新 模型 


(Morillo et al., 2016; P. Lee et al., 2019)。 另 外 还 有 Wang 等 (2017) 开 发 的 Rasch 自 模 模型 (Rasch 


(Bradlow, Wainer, & Wang，1999) 提 


出 的 贝 叶 


ipsative model, RIM), H. Lee 和 Smith (2020a) 基 于 贝 叶 斯 题 组 模型 (Bayesian testlet model) 


斯 随机 题 块 模 型 (Bayesian random block item 


response theory, BRB-IRIT)。 这 些 模 型 均 包 含 三 个 层面 的 内 容 : 迫 选 题 型 、 题 目 反 应 模型 、 决 
策 横 型 。 模 型 之 间 的 本 质 区 别 在 于 所 假设 的 题目 反应 模式 (Morillo et al., 2016) 和 采用 的 决策 
模型 类 型 (Brown, 2016)。 题 目 反 应 模式 反映 的 是 题目 反应 强度 和 所 测 维 度 之 间 的 关系 ， 决 
策 模型 类 型 反映 的 则 是 个 体 在 题目 间 做 出 选择 的 过 程 , 题 型 和 决策 模型 共同 决定 了 模型 的 基 


础 框架 , 决策 模型 在 外 显 作 管 与 题目 反应 强度 之 间 起 到 了 桥梁 作用 ， 


= 


型 链接 到 个 体 的 潜在 特质 水 平 , 最终 


并 进一步 由 题目 反应 模 


成 整体 的 迫 选 分 析 模 型 。 本 文 将 首先 厘清 不 同 题目 反 


应 模式 和 决策 模型 类 型 , 再 依据 这 两 种 概念 类 型 对 上 述 模型 进行 分 类 和 系统 介绍 , 最 后 从 模 


型 构建 思路 、 参 数 估计 方法 与 应 用 研究 现状 3 个 方面 进行 模型 比较 。 


3.1 题目 反应 模式 


题目 是 特质 的 外 显 测量 指标 , 题目 与 潜在 特质 之 间 的 关系 需 使 用 测量 模型 进行 链接 。 在 
所 假设 的 个 体 对 题目 的 反应 过 程 ， 可 划分 为 优势 模型 
(Dominance Models) 和 展开 模型 (Unfolding Models) 两 大 类 。 优 势 模 型 假定 个 体 被 评估 的 特质 


人 格 测验 中 ， 不 同 测量 模型 依据 其 


水 平 越 高 , 其 会 以 越 高 的 概率 对 相应 


题目 做 出 正面 回 


Logistic Model，2PLM) 等 均 假设 个 体 对 题目 的 回 


El 


在 咖啡 馆 里 安静 地 聊天 ， 太 过 内 向 


答 , Rasch 模型 .2PL 模型 (Two-Parameter 


答 遵循 优势 反应 模式 。 展 开 模 型 假定 个 体 正 
答 的 概率 与 题目 和 被 评估 的 特质 水 平 位 置 的 接近 程 


度 直接 相关 。 如 题目 “我 喜欢 和 朋友 


的 个 体会 因为 不 喜欢 公共 场所 而 选择 不 同意 ， 而 极端 外 


向 的 个 体 因 为 喜欢 更 加 刺激 的 环境 而 选择 不 同意 (Drasgow et al., 2010)， 处 于 中 间 水 平 的 个 


体 更 倾向 于 同意 ， 其 项 目 反 应 函数 


昌 线 为 单 峰 钟 型 ， 即 个 体 的 特质 水 平 与 题目 位 置 越 接近 ， 


其 正面 回答 的 概率 越 高 。 展 开 模 型 的 代表 模型 为 广义 等 级 展开 模型 (Generalized Graded 


Unfolding Model, GGUM) (Roberts et al., 2000). 


到 底 哪 种 模型 更 能 反映 出 个 体 在 作答 非 认 知 类 题 


目 时 的 反应 特点 ， 至 今 仍 未 有 定论 ( 王 


H 等 , 2014; Morillo et al., 2016; Hontangas et al., 2016)。 一 些 模拟 和 实证 研究 (Chernyshenko 


et al., 2001; Tay et al., 2011) 支 持 展开 模型 ， 特 别 是 针对 态度 类 特质 的 测量 ， 


表现 与 优势 反应 题目 一 样 好 或 更 好 。 展 开 模 型 被 认为 更 灵活 ， 


时 ， 它 可 以 等 同 于 优势 模型 。 然 而 看 


展开 反应 题目 的 
因为 当 题目 的 位 置 参 数 在 末端 


究 表 明 这 种 优越 性 在 实践 中 3 


非 普遍 存在 ， 与 优势 反应 


题目 组 成 的 量 表 相 比 ， 完 全 由 展开 反应 题目 组 成 的 量 表 的 心理 测量 学 特性 大 为 逊色 , 包括 较 
低 的 信和 度 和 较 低 的 效 标 关联 性 (Huang & Mead, 2014)。 此 外 ， 由 于 展开 模型 对 负 向 题 的 评分 
无 法 直接 反 向 转换 , 估计 结果 可 能 不 如 优势 反应 题目 准确 (Brown & Maydeu-Olivares, 2010). 


从 模型 复杂 度 上 来 说 , 优势 模型 一 般 比 展开 模型 更 节俭 、 有 更 少 的 参数 ,通常 情况 下 除非 有 


明确 的 证 据 证 明 复杂 模型 的 优势 ,否则 应 首先 考虑 更 节俭 的 模型 (Oswald & Schell, 2010). 7 


Sh, 展开 反应 题目 更 加 难以 编写 题目 所 反映 的 确切 含义 也 难以 界定 。 
开 模 型 的 讨论 可 参考 Drasgow et al. (2010)。 


题目 反应 模式 是 题目 层面 的 特点 而 非特 质 特点 , 与 迫 选 题 型 无 关 。 


更 多 关于 优势 还 是 展 


在 将 单个 题目 组 合 为 


迫 选 题 块 时 ,可 使 用 任何 反应 模式 的 题目 ， 因 为 它们 都 能 测量 同样 的 潜在 特质 ,潜在 特质 的 
分 布 对 于 同一 批 人 群 来 说 是 不 变 的 。 在 实际 应 用 中 ， 需 要 研究 者 结合 题目 特点 或 数据 特点 ， 


选择 优势 或 展开 模型 中 的 一 种 作为 题目 与 潜在 特质 间 的 测量 模型 , 尚未 看 到 在 同一 测验 中 混 


两 种 模型 的 情境 。 
3.2 ”决策 理论 


立 的 评价 ， 而 个 体 对 题目 的 绝对 评价 是 衡量 其 特质 水 平 的 基础 。 基 于 


人 迫 选 测验 要 求 个 体 对 一 组 题目 进行 比较 判断 进而 决策 产生 答案 , 而 非 对 每 个 题目 进行 独 


Brown(2016) 的 观点 ， 


个 体 对 一 组 题目 进行 比较 判断 的 基础 是 其 在 每 个 被 比较 题目 上 的 绝对 评价 水 平 , 对 迫 选 数据 
的 建 模 需 要 依托 于 合适 的 决策 理论 来 逆 释 决策 结果 (外 显 作 答 ) 与 绝对 评价 之 间 的 关系 ， 进 而 


评估 个 体 的 潜在 特质 水 平 。 目 前 已 被 用 于 迫 选 数据 建 模 的 决策 理论 主要 有 两 类 , 第 一 类 是 最 


古老 和 被 使 用 最 广泛 的 瑟 斯 顿 比 较 判 断 法 则 (Thurstone's 


Judgment)(Thurstone, 1927)， 第 二 类 是 Luce 选择 公理 (Luce & Duncan, 1959) 和 布 拉 德 利 - 特 里 


模型 (Bradley-Terry Model) (Bradley & Terry, 1952)， 后 者 是 前 者 的 特例 


3.2.1 琴 斯 顿 比较 判断 法 则 


Law of Comparative 


情况 (Brown, 2016). 


Thurstone(1927) 以 效用 (utility) 来 表示 个 体 对 每 个 题目 的 反应 倾向 怕 


考虑 实质 是 效用 值 的 衡量 。 以 y; 代表 个 体 比较 题目 i 和 j 后 的 外 显 结果 ，y; =1 代 表 选 择 了 


大 小 。 效 用 是 一 个 


潜在 变量 ， 可 以 被 认为 是 一 个 题目 在 个 体 上 的 心理 价值 。Thurstone 认为 个 体 对 题目 的 权衡 


题目 i 为 最 符合 ， 否 则 y = 0 。 以 {表示 个 体 在 题目 i 的 效用 值 ，t; >t ,表示 个 体 在 题目 i 


上 的 效用 高 于 题目 ji， 更 倾向 于 选择 题目 i 而 非 题目 j， 那 么 以 =t; 一 t 表示 题目 i 与 题目 


j 的 效用 差 值 ， 效 用 与 外 显 作 答 的 关系 可 整理 如 下 : 


1, y, 20 
yy = i (1) 
0, y,; <9 


在 应 用 到 迫 选 模型 建 模 时 ， 不 同 个 体 在 题目 i 上 的 效用 差异 可 被 分 为 系统 与 随机 两 部 分 ， 
系统 部 分 (0, ) 可 以 是 与 个 体 潜在 特质 水 平 相关 的 反应 函数 ， 随 机 部 分 则 为 随机 误差 E; ， 


Thurstone 假设 其 在 不 同 题目 间 相互 独立 且 服 从 正 态 分 布 。 因 此 ， 效 用 与 潜在 特质 之 间 的 关 
系 可 以 下 式 表 示 : 


t, = f (0,)+¢, (2) 


Heh O, 为 个 体 在 题目 i 所 测量 的 潜在 特质 (上 的 水 平 。 


3.2.2 Luce 选择 公理 


Luce(1959,1977) 拓展 了 适用 于 二 元 选择 情境 (binary choice) 的 布 拉 德 利 - 特 里 模型 


(Bradley & Terry, 1952)， 其 以 Vi 代表 某 个 体 与 题目 i 相关 的 反应 强度 ， 将 由 所 有 备 选 题目 组 


成 的 集合 称 为 S ， 那 么 从 S 中 选择 i 的 概率 PP(i[S]) 与 Vi 成 正比 : 


P(i[s])= =a (3) 


Luce 将 对 一 组 题目 的 排序 过 程 描述 为 互相 独立 的 一 系列 做 最 佳 选 择 的 步骤 : 从 题目 集 


合 S 中 先 选 择 最 符合 自己 的 题目 ， 再 从 剩余 的 3$ -1 集合 中 选取 第 2 个 最 符合 的 题目 ) B 


后 从 剩余 的 9 一 2 集合 中 选取 第 3 个 题目 ， 直 到 完成 最 后 两 个 题目 的 选择 ， 从 而 实现 对 所 有 
备 选 题目 的 排序 (Hontangas et al., 2015)。 排 序 结果 的 概率 则 为 各 步骤 概率 的 连 乘 。 假 设 S 集 


合 包含 1 、j、 上 三 个 题目 ， 那 么 排序 结果 为 i > j > K 的 概率 为 : 


P(ijk) = P(i[ijk])x P(j[ jk]) (4) 
ah, P(i[lik]) = 一 一 一 一 ,代表 从 i j RERE P(j[Jk]) = 一 一， 代表 
i j k j k 


从 j、 上 中 选择 j 的 概率 。 


HRES 中 仅 有 i、j 两 个 题目 时 ，Luce 选择 公理 的 应 用 即 为 布 拉 德 利 - 特 里 模型 : 


P(ii))- 


vitv, 


将 此 决策 模型 应 用 到 迫 选 模型 建 模 中 时 ，V; 可 由 与 潜在 特质 有 关 的 项 目 反 


a 


(5) 


应 函数 得 出 。 


其 他 类 型 的 决策 理论 还 有 ， 如 Coombs 的 展开 偏好 模型 (Coombs’s Unfolding Preference 


Model), Andrich 的 强制 赞同 模型 (Andrich’s Forced Endorsement ModeD)。 前 者 是 瑟 斯 顿 比 较 


判断 法 则 的 一 个 特例 ， 后 者 简化 后 与 布 拉 德 利 - 特 里 模型 等 价 ， 有 具体 可 参考 Brown(2016). 


3.3 TIRT 模型 


TIRT 是 Brown (2011) 基 于 瑟 斯 顿 比较 判断 法 则 提出 的 一 种 适用 于 优势 反应 


它 适 用 于 PICK-2，RANK 和 MOLE 题 型 的 迫 选 测 验 ， 题 块 中 的 题目 可 以 来 自 同 一 维度 也 可 


属于 不 同 维度 。TIRT 假设 个 体 选 择 或 者 排序 的 心理 过 程 是 依次 地 对 一 个 题 块 内 1 个 题目 进 


题目 的 模型 ， 


行 了 独立 地 两 两 比较 判断 ， 这 个 过 程 产生 了 衣 = n(n 一 1)/2 个 比较 结果 ， 在 对 数据 进行 建 模 


前 ， 需 要 对 作答 进行 二 元 编码 (binary coding) 以 获得 两 两 题目 的 比较 结果 。 以 一 个 RANK-3 


题 块 为 例 ， 题 块 内 的 题目 为 {i,j,K} ， 假 设 个 体 的 选择 结果 为 >k> j， 纺 


人 码 结果 则 为 


fi, j}=1, {ik}=1, {j,k}=0, 代表 i> j,i>k 和 j <k，TIRT 是 在 拆 分 后 的 二 元 数据 


上 构建 的 概率 模型 。 


在 TIRT 中 ， 效 用 与 题目 所 测 的 潜在 特质 之 间 是 线性 关系 ， 且 假设 每 个 题目 的 效用 均 只 


在 一 个 潜在 特质 上 有 载荷 ， 即 题目 是 单 维 性 的 。 假 设 题目 ;测量 了 特质 4， 结 合 公式 (2)， 效 


用 与 特质 4 的 关系 可 以 表示 为 : 


t=u,tA0 +E, 


(6) 


其 中 A WAG OI, A, A i 在 潜在 特质 O, 上 的 因子 载荷 ，Ei 为 服从 正 态 


分 布 的 误差 ，0 被 假设 服从 多 元 正 态 分 布 。 实 际 中 ， 研 究 者 通常 更 关注 O 的 大 小 ， 而 非 效 


量 潜在 特质 b ， 将 公式 (6) 代 入 态 =t -t 中 可 得 : 


y; =u +40, +6 -4j -40,-€; 


EHE y FURBO ERR. RARESA, WA y, 也 服从 正 态 


用 值 ， 因 此 需要 通过 公式 (1) 建 立 起 效用 值 、 潜 在 特质 和 外 显 作答 之 间 的 联系 。 假设 题目 j 测 


于 Thurstone 对 & 的 正 态 性 假设 要 求 采 用 正 态 肩 型 模型 (Normal Ogive Model) 为 链接 函数 ， 


那么 对 于 每 个 二 元 结果 ， 个 体 选 择 题目 i 而 非 j 的 条 件 概 率 为 : 


P(i>j|0,,0,)=®y (8) 


y+ 4,0, -A,9, | 


Wi tw 


其 中 6; ME 的 方差 为 Wi 、W) ， 那 么 差 值 的 方差 为 +W? Dy 代表 累积 正太 分布 


函数 。 经 过 二 元 编码 后 的 数据 两 两 之 间 存 在 共同 题目 , 如 {i, 站 与 {i,K} 均 包含 对 i 题目 的 判 


断 ， 因 此 它们 之 间 的 协 方差 将 被 设 定 为 共享 成 分 i 的 方差 ， 以 解释 其 之 间 的 相互 依赖 性 。 


cov(é,-€;,6,-&) =cov(é,,6,)=y; (9) 

所 以 公式 (8) 是 一 个 特殊 的 二 维 正 态 户型 IRT 模型 ， 潜 在 特质 ( 越 高 ， 则 个 体 选择 题目 i 
而 非 j 的 概率 也 越 高 ， 遵 循 优势 反应 模式 。 

O TIRT 发 展 至 今 ， 有 众多 研究 者 通过 模拟 与 实证 研究 探索 了 其 在 多 种 条 件 下 的 适用 性 

(Biirkner et al., 2019; Brown & Maydeu-Olivares, 2013; Schulte et al., 2021; 李 辉 等 , 2017; 连 

旭 等 , 2014)。 这 些 研究 一 方面 证 明了 TIRT 确实 在 一 定 程度 上 克服 了 传统 计 分 下 的 自 模 性 

问题 ， 相 比 传 统计 分 具有 测量 精度 的 提升 ， 也 更 接近 李 克 特 式 单一 刺激 量 表 的 结果 (Joubert 

et al, 2015); 另 一 方面 也 指出 了 TIRT 若 要 显示 出 比 传 统计 分 优良 的 性 质 ， 需 对 测验 设计 有 

较 多 限制 。 如 TIRT 在 低 维 度数 情境 中 使 用 时 ， 其 潜在 特质 的 良好 恢复 性 建立 在 测验 包含 一 

= 定 比 例 的 混合 计 分 型 题 块 的 基础 上 (Brown, 2011). Schulte 等 (2021) 的 研究 也 指出 在 维度 数量 

(S 低 于 10 时 ， 如 果 所 有 题目 同 为 正 向 题 ， 即 使 是 在 高 因子 载荷 情况 下 ， 测 验 的 信 度 也 会 急剧 

下 降 。 不 过 与 传统 计 分 的 相关 研究 相似 ， 在 高 维度 情境 下 (维度 数量 高 于 30)， 即 使 不 使 用 混 

合计 分 型 题 块 ，TIRT 对 潜在 特质 分 数 及 特质 间 关系 的 恢复 性 也 非常 准确 (Schulte et al., 2021; 

Biirkner etal., 2019)。 最 后 需 注 意 的 是 ， 使 用 混合 计 分 型 题 块 可 能 存在 以 下 几 个 问题 (Biirkner 

etal., 2019; Morillo et al., 2016): 1、 增 加 个 体 的 认 知 负荷 : 2、 反 向 描述 可 能 会 带 来 较 大 的 方 

法 论 变异 ， 可 能 会 组 成 一 个 独立 的 方法 因子 ， 进 而 会 影响 题目 的 协 方差 矩阵 ，3、 可 能 会 损 

害 使 用 人 迫 选 题 型 来 控制 作假 的 效力 ， 进 而 导致 对 使 用 人 迫 选 测验 意义 性 的 质疑 。 


Fd 


3.4 ”MUPP 框架 及 衍生 模型 


3.4.1 MUPP 框架 与 MUPP-GGUM 模型 


Stark(2005) 提 出 了 适用 于 配对 迫 选 题 型 (PICK-2) 的 MUPP 框架 , 该 框架 对 后 来 迫 选 模型 


的 发 展 起 到 了 极 大 的 促进 作 上 月 


块 包含 题目 i 和 j， 并 分 别 


Q (i 代表 对 题目 i 的 拒绝 


概率 P(i> j|0,,6,) 为 : 


P(i>j|@,,0,)= 


MUPP 假设 个 体 对 每 个 题目 的 评定 是 独立 的 , 且 题 目 是 


H(Brown & Maydeu-Olivares, 2013)。 在 MUPP 中 ， 假 设 一 个 题 


测量 潜在 特质 已 和 幼 AP (i) 代表 个 体 对 题目 i 的 接受 概率 ， 


概率 ， 且 Q(i)=1-P(i)， 那 么 个 体 选择 题目 i 为 最 符合 的 反应 


PU)QO) 


P(i)Q(j)+Q(i) P(A) 
单 维 性 的 , 题 块 内 的 题目 可 来 自 


(10) 


相同 或 不 同 维度 ， 因 此 被 称 之 为 多 重 - 单 维 配对 选择 模型 (Multi-Unidimensional Pairwise 


Preference, MUPP)。MUPP 反映 了 个 体 决 策 结果 的 概率 与 单个 题目 倾向 程度 的 关系 ， 如 果 把 


P(i)Q(j) 的 联合 概率 记 为 V; ， 表 示 为 与 题目 i 相关 的 反应 强度 ， 则 其 与 公式 (5) 是 等 价 的 ， 


因此 MUPP 采用 的 决策 模型 可 归 类 为 布 拉 德 利 - 特 里 模型 
在 题目 反应 模式 的 选择 上 ，Stark(2005) 假 设 题目 服从 展 3 


J(Brown, 2016). 


于 反应 模式 ， 并 使 用 GGUM 的 


二 元 计 分 版 本 计算 单个 题目 的 反应 概率 , 即 公 式 (10) 中 的 P(i) 与 Q(j)， 因此 该 迫 选 模型 被 


称 为 MUPP-GGUM 模型 。 为 方便 研究 者 应 月 


型 迫 选 测验 的 建议 流程 : 


1、 为 每 个 所 要 测量 的 维度 出 大 量 的 题目 描述 (建议 3 倍 于 目 
2、 将 题目 以 1~4 级 量 表 或 1~5 WA 
3、 分 维度 估计 题目 的 参数 ， 并 进行 单 维 怕 


4、 对 题目 进行 社会 称许 怕 


: 量 表 的 评定 ， 取 人 条 


5、 通过 前 四 步 完 成 迫 选 题库 的 搭建 后 ,就 可 以 将 称 六 
行 配对 组 卷 ， 以 减少 个 体 依据 称许 人 


定 比 例 的 同 维度 题 对 ; 
6、 投放 迫 选 测 验 施 测 ; 


平均 值 作为 题 


i 好 作答 。 


日 此 模型 , Stark(2002,2005) 提 出 了 组 建 PICK-2 题 


标题 量 ); 
表 进 行 施 测 ( 各 维度 约 1000 人 左右 的 被 试 ); 
FE 检验 ; 


目的 称许 性 水 平 ; 


F 性 等 级 相似 且 测 量 不 同 特 质 的 题目 i 
为 确定 潜在 特质 分 数 的 尺度 ， 需 要 包含 一 


7、 使 用 MUPP-GGUM 模型 对 个 体 进行 特质 的 估计 。 


MUPP-GGUM 模型 是 使 月 
的 流程 指导 , 也 是 最 先 被 应 | 
选拔 的 多 个 人 格 测验 
基于 MUPP 框架 的 衍生 模型 被 开发 出 来 以 适应 多 种 迫 选 题 型 ， 同 时 在 Stark 等 人 (2012) 自 适 


最 为 久远 和 广泛 的 迫 选 模型 之 一 ， 不 仅 在 开发 流程 上 有 规范 
到 计算 机 化 自 适应 测验 开发 的 迫 选 模型 并 应 用 在 了 美国 军队 


H(Stark et al., 2012; Stark et al., 2014)。 在 MUPP-GGUM 之 后 ， 有 众多 


应 算法 的 基础 上 ， 过 选 自 适 应 测验 研究 也 开始 蓬勃 发 展 。 


3.4.2 MUPP-2PL 模型 


Morillo 等 (2016) 认 为 优势 反应 模式 的 题目 也 同样 适用 于 非 认 知 类 测验 , 并 且 在 题目 编写 


难度 、 模 型 节俭 度 方 


等 人 将 公式 (10) 中 计算 王 ( 站 与 Q(D) 的 项 目 反应 函数 替换 为 了 经 典 优势 反应 模型 2PLM, 并 


用 要 优 于 展开 反应 模式 的 题目 


。 因 此 在 MUPP 框架 的 基础 上 ，Morillo 


称 之 为 MUPP-2PL 模型 。 依 据 此 模型 ， 个 体 选 择 题目 i 而 非 题目 j 的 概率 为 : 


P(i> j|0,,0,)=®, (4,9, — 4/8, + dying.) = 


1 
= exp| - (40, — G9, + drock )| (11) 


Rp, O, 代表 逻辑 斯 蒂 克 函 数 (logistic function)，4; 和 a; 代表 题目 的 区 分 度 参 数 ，0), 


fil O, 分别 代表 题 


合并 得 到 (da = a;b, 一 ajb; )， 但 音 


并 不 是 


MUPP-2PL 


唯 


个 MUPP 框架 在 优势 反应 模型 下 的 应 用 ，Usami 等 (2016) 也 在 


Ei Aj 所 测量 的 潜在 特质 ，Q wx 为 截 距 参 数 ， 其 由 2PLM 中 的 。、b 参 数 


个 题目 的 b 参数 是 无 法 被 识别 的 。 


MUPP 中 使 用 了 2PLM 来 计算 单个 题目 的 接受 程度 ， 但 其 与 Stark(2005) 一 样 采用 了 预 标定 


的 题目 参数 来 估计 能 力 ,虽然 使 用 基于 


单 维 模型 进行 参数 标定 的 方法 在 算法 和 题库 管理 上 较 


为 简便 ， 但 从 应 用 角度 出 发 ， 人格 类 测验 通常 没有 正确 答案 , 在 题目 保密 性 的 需求 上 并 不 突 


出 ， 一 般 无 需 配 置 大 型 题库 用 于 组 合 平行 试卷 ， 
作答 数据 来 估计 题目 参数 显然 更 符合 真实 情境 (P Lee et al., 2019)。 同 时 Stark 的 这 种 方法 除 


了 忽略 了 题目 参数 跨 测 验 情境 的 变异 性 之 外 , 在 估计 个 体 潜 在 特质 时 也 忽略 了 题目 参数 的 佑 


计 误 差 。 因此 Morillo 等 (2016) 基 于 贝 叶 斯 框架 ， 


套 优秀 的 测验 便 足 够 ,那么 此 时 基于 迫 选 


ya 


采 


马尔 科 夫 链 蒙特 卡 洛 采 样 (Markov chain 


Monte Carlo, MCMC) 算 法 对 题目 参数 和 被 试 参数 进行 联合 估计 ， 实 现 了 基于 人 迫 选 作答 数据 


来 估计 MUPP-2PL 的 所 有 参数 。Morillo 等 发 现 题 


目 参 数 、 能 力 参 数 和 特质 间 的 关系 恢复 性 


均 受 到 测验 长 度 的 影响 ， 即 测验 越 长 估计 结果 越 准确 。 另 外 ,样本 量 是 影响 题目 参数 估计 准 


确 性 的 重要 因素 ， 该 方法 对 dyor 参数 的 估计 相 比 (参数 更 加 准确 。 最 后 ，Morillo 等 在 实证 


Et 


研究 中 发 现 MUPP-2PL 对 部 分 特质 之 间 关 系 的 估计 结果 与 前 人 


来 源 是 作答 人 群 还 是 测验 情境 的 改变 尚 不 得 而 知 。 


究 有 较 大 差异 ， 但 此 差异 


3.4.3 GGUM-RANK 模型 


[HI 


MUPP-GGUM 与 MUPP-2PL 均 只 适用 于 PICK-2 题 型 ，Hontangas 等 (2015) 将 MUPP 村 


AEH Luce 选择 公理 进行 了 拓展 , 使 之 能 够 适用 于 PICK. RANK 和 MOLE 多 种 迫 选 题 型 。 


HARREI. j k 共 3 个 题目 组 合 为 一 个 题 块 ， 当 为 PICK-3 题 型 时 ， 那 么 基于 Luce 选 


RAH, MAMEA [ijk] 中 选择 i 的 概率 P (i[ijk]) 为 : 


P(i)Q(J)Q(k) 
i) Q( J) Q(k) + Q(i) P(J)Q(k) + Q(i)Q(i) P(k) 


而 对 RANK 题 型 进行 拓展 的 逻辑 是 ， 假 设 个 体 对 题目 的 排序 过 程 实则 是 对 题目 进行 了 


(12) 


P(i[ijk]) = P( 


一 系列 的 PICK, 以 RANK-3 题 型 为 例 , 假设 一 个 个 体 的 排序 结果 为 i > k > j, 那么 P(ikj) 


则 为 : 
P(ikj)= P (i[ijk])xP(k[jk]) (13) 
H P(i[ijk]) 由 公式 (12) 得 出 ， 同 理 可 得 P(k[jk])。 


最 后 对 MOLE 题 型 进行 拓展 ， 以 MOLE-4 为 例 (增加 题目 1 ) ， 未 被 选择 的 两 个 题目 的 


排序 无 法 确定 ， 因 此 合并 2 种 可 能 的 排序 作为 此 题 型 选择 结果 的 概率 。 以 P(i**k ) 表 示 被 


试 选择 了 1 和 k 作 为 最 符合 自己 和 最 不 符合 自己 的 题目 时 的 概率 ， 那 么 : 


P(i**k) = P(ijlk)+ P(iljk) (14) 


Ser, P (ilk) æ P(iljk) 可 基于 公式 (13) 的 逻辑 计算 。 


以 上 基于 Luce 选择 公理 对 MUPP 的 拓展 ， 使 得 PICK. RANK 和 MOLE 题 型 的 判断 逻 
二 被 整合 到 一 个 框架 内 ， 形 成 供 套 关系 ， 极 大 地 拓宽 了 MUPP 的 应 用 范围 。P Lee 等 (2019) 


则 基于 以 上 对 RANK 模型 的 拓展 思路 ， 开 发 了 适用 于 RANK-3 题 型 的 GGUM-RANK 模型 


CHAR 13 中 的 P(i)) 由 GGUM 计算 ) ， 并 采用 MCMC 联合 估计 算法 对 题目 参数 和 能 力 


参数 进行 估计 。Joo 等 (2018) 开 发 了 此 模型 的 两 种 信息 量 指标 : Oll(Overall item information) 


和 OTI(overall test information). OI 为 一 个 题 块 的 信息 量 ，OTI 为 测验 中 所 有 题 块 的 信息 量 
的 累加 和 ， 即 测验 整体 信息 量 。 这 两 种 信息 量 指标 可 为 测验 的 组 卷 提 供 直接 参考 ,而 在 挑选 
相似 OII 的 题 块 时 ，Joo 等 给 出 了 一 种 绘制 条 件 OL 图 形 的 方法 ， 使 研究 者 可 以 进一步 比较 
和 选择 能 够 在 目标 能 力 区 间 内 提供 最 大 信息 量 的 题 块 ， 而 信息 量 指标 的 开发 也 为 GGUM- 


RANK 实现 CAT 打下 了 基础 (Joo et al., 2020). 


3.5 RIM 模型 


Wang 等 (2017) 认 为 通过 人 迫 选 测验 识别 个 体 的 潜在 特质 的 绝对 水 平 是 不 现实 的 ， 并 指出 
通过 TIRT 获得 的 特质 分 数 不 能 用 于 个 体内 和 个 体 间 的 比较 。 因 此 ，Wang 等 提出 了 RM 模 
型 ， 旨 在 获得 用 于 个 体内 部 比较 的 分 数 ， 而 非 像 TIRT 或 MUPP 族 模型 期 望 获得 潜在 特质 的 
绝对 分 数 ， 其 使 用 Rasch 模型 作为 项 目 反 应 函数 ， 因 此 RIM 适合 优势 反应 模式 的 题目 。 与 


TIRT 模型 一 样 ，RIM 的 决策 模型 为 Thurstone(1927) 的 比较 判断 法 则 ， 个 体 对 题目 的 比较 实 


则 衡量 的 是 特质 分 数 与 题目 效用 值 。 在 RIM 模型 中 ， 个 体 选 择 题目 i 而 非 题目 ) 的 概率 为 : 


P(i> j|,,9,)=®, (0, +1, -0, -4) (15) 


Sth, 6,56, ER iR j 所 测量 的 潜在 特质 ， /4 与 人 ;为 题目 的 效用 值 。 


其 在 对 潜在 特质 0 估计 时 ， 个 体内 部 在 所 有 所 测 特质 上 的 分 数 和 将 被 固定 为 0， 因此 只 
有 DD 一 1 个 潜在 特质 被 自由 估计 : 


> 0, =0 (16) 


D 
d=1 


其 中 d 代表 维度 ， 代表 维度 数量 。 此 时 0 的 大 小 意味 着 心理 特质 的 分 化 程度 ， 如 果 
0 接近 0 意味 着 更 低 的 分 化 程度 。 所 以 特质 的 0 值 实则 是 比 自 模 计 分 更 加 精细 的 内 部 排序 结 
0, 


四 
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质 b 上 的 差 值 的 绝对 值 为 ABS(0, 一 的,) > ABS(0 -9,,) WAME M 在 特质 (和 b 上 的 


分 化 程度 大 于 个 体 由 。 在 对 模型 的 参数 估计 上 ，Wang 等 建议 当 维 度数 量 低 于 4 个 时 可 采用 


MMLE(Marginal Maximum Likelihood Estimationm) 算 法 ， 高 维 数量 时 更 适合 用 MCMC 方法 。 


Wang 等 (2016) 拓 展 了 RIM, 使 之 适用 于 RANK 题 型 ， 形 成 了 ELIRT(exploded logit IRT) 


和 GLIRT(generalized logit IRT) 两 种 迫 选 模型 。 其 中 ELIRT 的 拓展 思路 与 Hontangas 等 (2015) 


对 RANK 的 拓展 逻辑 一 致 。GLIRT 的 拓展 思路 是 对 每 个 题 块 的 可 能 作答 模式 进行 枚 举 ， 依 
次 写 出 每 种 作答 模式 的 反应 函数 ， 并 限定 所 有 可 能 的 作答 模式 的 概率 和 为 1， 来 实现 对 个 体 
作答 模式 概率 模型 的 构建 ， 有 具体 可 参考 Chen 等 (2020)。 当 用 于 配对 人 迫 选 题 型 时 ，ELIRT 和 
GLIRT 均等 价 于 RIM。 两 种 拓展 模型 的 模拟 研究 结果 非常 相似 ， 研 究 者 可 自由 选择 其 中 之 


3.6 BRB-IRT 模型 


H. Lee 和 Smith(2020a) 选 择 了 贝 叶 斯 题 组 模型 (Bradlow et al., 1999) 作 为 基础 模型 ， 通 过 


在 MUPP-2PL 的 项 目 反应 函数 中 纳入 随机 题 块 效应 参数 y y (类 似 题 组 模型 中 题 组 效应 参数 ) 


来 将 迫 选 题 块 内 题目 的 相互 依赖 性 考虑 到 参数 估计 中 , 此 模型 即 为 BRB-IRT。 与 TIRT 相似 ， 
BRT-IRT 支持 多 种 迫 选 题 型 ， 在 用 于 RANK-3 题 型 中 时 ， 同 样 需要 进行 二 元 编码 (参考 TIRT 


的 编码 方式 )， 因 此 其 在 RANK-3 题 型 中 采用 的 决策 理论 可 被 归 类 为 瑟 斯 顿 比较 判断 法 则 。 


那么 个 体 丸 在 题 块 i 内 选择 题目 i 而 非 题 目 j 的 概率 为 : 


Pp, (i>j|0,,0,)=®, (4,8, -4,9, -d, — Yom) 
_ 1 (17) 
1+ exp| -(48, —a,6,-d;, - Yom) | 


其 中 题 块 1 可 以 由 2 个 及 以 上 的 测量 不 同 维度 的 题目 构成 ， 与 MUPP-2PL 模型 相似 ， 


dh 为 截 距 参数 (dj = qib; 一 qjb; ) nm 为 个 体 站 在 题 抉 1 上 的 随机 题 块 效应 (random block 


effect)， 其 可 被 理解 为 题 块 1 所 测量 的 维度 对 个 体 作答 的 影响 。 不 同 题 块 会 因 所 测 维 度 的 不 
同 而 产生 不 同 的 效应 值 。 相似 的 , 在 传统 题 组 模型 中 , 题 组 效应 是 指 一 组 题目 的 共同 刺激 (如 
阅读 理解 题目 的 篇 章 ) 对 个 体 作答 的 影响 ,在 参数 估计 上 , BRB-IRT 与 贝 叶 斯 题 组 模型 一 致 ， 
采用 MCMC 方法 。 H. Lee 和 Smith 从 模拟 研究 中 得 到 了 与 TIRT 相似 的 对 实践 人 员 的 建 
We, 即 需 要 采用 混合 计 分 型 题 块 , 才能 获得 比较 可 靠 的 参数 估计 结果 , 但 他 们 仅 模 拟 了 3 个 
维度 的 测验 情境 ， 高 维 情况 下 的 表现 还 不 得 而 知 。 另 外 ， 随 机 题 块 效应 的 大 小 并 未 对 题目 和 
能 力 参 数 的 估计 结果 产生 影响 。 

对 于 包含 混合 计 分 型 题 块 会 带 来 潜在 的 抗 作假 效 力 降 低 的 这 一 争议 问题 ，H. Lee 和 
Smith 认为 适合 BRB-IRT 的 应 用 场景 为 低 利害 的 作答 情境 ， 尤 其 是 可 以 充分 利用 迫 选 测验 
能 避免 李 克 特 式 量 表 带 来 的 其 他 作答 反应 偏差 的 这 一 优势 ， 又 不 对 抗 作假 有 较 高 需求 的 场 


景 。 如 2012 年 PISA(Programme for International Student Assessmenb) 就 在 对 学 生 的 数学 意 牛 
和 学 习 策 略 量 表 上 采用 了 迫 选 测验 形式 , 通过 控制 潜在 的 由 不 同文 化 所 带 来 的 作答 反应 偏差 
来 更 好 地 了 解 学 生 的 国际 / 跨 文化 差异 。 在 BRB-IRT 模型 中 ， 可 以 灵活 地 加 入 可 能 影响 题目 
和 特质 分 数 的 协 变 量 ， 从 而 可 以 更 好 地 分 析 人 群 间 的 差异 。 在 公式 (17) 的 基础 上 进行 拓展 ， 
当 包 含 影响 所 有 特质 的 协 变量 (以 性 别 变量 为 例 ) 时 ， 则 为 : 


P „(i> j|0,,0,)= : 


1+exp| (a6, a6, —d; Yom + Bgender, ) | as) 
当 包含 影响 每 个 潜在 特质 的 协 变量 时 ， 为 ; 
ar 1 
Pp, (i> j|0,,0,)= > (19) 


1+exp| (a0, a9, — di; —%nm + (B, gender, )- (8, gender, 


通过 公式 (18)， 可 以 解释 性 别 是 否 对 个 体 在 1 和 ji 的 选择 上 存在 影响 。 通 过 公式 (19)， 可 


以 解释 性 别 是 否 对 个 体 在 与 特质 和 特质 上 有 关 的 题目 上 的 选择 存在 影响 。 


4 模型 比较 


4.1 ”模型 构建 思路 


从 实践 的 角度 出 发 , 通过 已 有 的 迫 选 IRT 模型 可 以 看 到 , 迫 选 模型 开发 的 一 个 方向 是 使 
其 适合 更 多 的 题 块 组 合 方式 ， 如 PICK, RANK 或 MOLE， 另 一 个 方向 是 使 其 适合 不 同 反应 


模式 的 题目 。 依 据 题 型 和 题目 反应 模型 ， 已 有 迫 选 模型 的 总 结 见 表 4。 


表 4 模型 总 结 
PICK RANK MOLE 
展开 反应 模型 MUPP-GGUM GGUM-RANK GGUM-RANK 
优势 反应 模型 TIRT/MUPP- TIRT/BRB TIRT/BRB 
2PL/RIM/BRB IRT IRT/ELIRT/GLIRT IRT/ELIRT/GLIRT 


TIRT, MUPP-2PL 和 BRB-IRT 均 适 合 于 优势 反应 模式 题目 ， 且 选择 了 2PLM 作为 题目 
反应 函数 ， 只 不 过 MUPP-2PL 仅 适 合 于 PICK-2 题 型 ， 其 他 两 个 均 可 通过 对 数据 的 二 元 编码 
应 用 于 多 种 题 型 。TIRT 在 应 用 于 PICK-2 题 型 时 ， 在 题 块 反应 方程 构建 上 与 MUPP-2PL 等 


价 (Morillo et al., 2016)， 只 不 过 TIRT 使 用 的 是 Probit 链接 函数 ，MUPP-2PL 使 用 的 是 Logit 
链接 函数 , 而 两 模型 在 理论 上 的 等 价 性 在 模拟 研究 中 也 得 到 了 体现 , 两 模型 在 大 部 分 条 件 下 
的 估计 结果 非常 一 致 , 除了 MUPP-2PL 对 潜在 特质 及 潜在 特质 之 间 关 系 的 估计 优 于 TIRT 在 


可 


沙 


\ 


= 


司 等 条 件 下 的 结果 。 另 外 Morillo 等 人 的 实说 
参数 还 是 对 潜在 特质 的 估计 均 

E 明 了 TIRT MXA 
的 内 在 等 价 性 ， 只 不 过 TIRT 由 于 没有 使 用 


& 


FE 研究 发 现 ，MUPP-2PL 与 TIRT 无 论 是 对 题 


目 


\ 有 极 高 的 相似 性 (相关 系数 均 在 0.9 附近 )， 这 在 一 定 程度 也 
的 的 瑟 斯 顿 比较 判断 法 则 与 应 用 在 PICK-2 题 型 上 的 布 拉 德 利 - 特 里 模型 
目的 先 验 信息 导致 估计 结果 总 体 偏 极 端 化 。 为 


了 将 题 块 内 题目 之 间 的 相互 依赖 性 考虑 到 参数 估计 中 ，BRB-IRT 在 MUPP-2PL 的 基础 上 加 


入 了 随机 题 块 效应 ， 而 在 TIRT 中 ， 则 是 通过 构建 题 
FE 研究 也 表现 上 


虽然 RIM 也 为 支持 优势 反应 模式 题目 的 迫 选 模型 , 但 与 TIRT、MUPP-2PL 和 BRB-IRT 


Smith(2020a) HJ SE il 


Q 


目 间 的 协 方差 矩阵 来 实现 的 ，H. Lee 和 


HE BRB-IRT 5 TIRT 结果 的 高 度 一 致 性 。 


相 比 ， 它 的 题目 反应 函数 为 Rasch 模型 ， 在 潜在 特质 分 数 原点 的 选择 上 也 不 一 致 。 由 于 对 0 
意义 的 解释 不 同 (RIM 将 O 视 为 个 体内 部 潜在 特质 的 心理 分 化 程度 , 而 在 其 他 三 个 模型 中 均 


被 解释 为 真正 意义 的 潜在 特质 的 常 模 分 数 )，RIM 以 个 体内 部 均值 或 0 为 参照 点 /原点 ， 因 
和 为 0， 并 未 对 人 群 中 的 分 布 作 假设 ， 而 其 他 模型 均 假设 昌 在 人 群 


Rp 


wa 


制 了 个 体内 所 有 


中 呈 多 元 正 态 分 布 形 态 ， 


RIM KIIA A 


4.2 参数 估 


是 否 足 以 吸引 实践 人 员 转 而 采 


计 方 法 


0O 的 参照 点 为 人 群 均 值 。 显 然 ，RIM 适合 测量 目的 为 寻找 个 体 
部 特质 的 排序 状态 的 测验 ，TIRT、MUPP-2PL 和 BRB-IRT 适合 目标 在 于 比较 不 同 个 体 之 间 


的 分 数 差异 的 测验 。 而 RIM 与 传统 计 分 方式 得 到 的 同 为 内 部 排序 结果 , 那么 相 比 传统 计 分 ， 


更 复杂 的 计 分 方法 ， 需 要 更 多 研究 去 探索 。 


此 


内 


在 迫 选 模型 的 参数 估计 中 , 从 估计 内 容 上 分 为 题目 参数 估计 和 潜在 特质 估计 ， 从 估计 算 


在 本 文 提 及 的 6 个 模型 中 , 仅 MUPP-GGUM 没有 采用 题目 


如 3.4.1 中 的 流程 所 述 , 其 是 一 种 两 步 走 策略 : 计算 P(i) 与 Q(i) 所 需 的 题目 参数 是 在 第 


3 步 通过 李 元 特 式 量 表 数 据 预先 标定 的 ， 第 7 步 基 于 MUPP-GGUM 进行 能 力 估 计时 使 用 
与 题目 标定 时 不 同类 型 的 迫 选 作答 数据 。 因此 此 模型 的 一 个 隐 含 强 假设 是 , 题目 参数 具 


法 上 主要 分 为 传统 估计 算法 和 MCMC 方法 , 从 估计 流程 上 主要 分 为 联合 估计 和 两 步 走 策略 。 
与 能 力 参数 的 联合 估计 方法 ， 


2= 


了 


了 跨 


测验 形式 的 一 致 性 。 这 种 流程 非常 有 利于 题库 的 管理 ， 进 而 方便 迫 选 自 适应 测验 的 开发 。 在 


第 7 步 对 潜在 特质 进行 估计 时 , Stark 等 (2005,2012) 采 用 一 种 近似 牛顿 迭代 的 BFGS(Broyden- 


Fletcher-Goldfarb-Shanno) 方 法 来 实现 高 维 能 力 估计 的 极 大 后 验 概率 算法 (Maximum A 


Posteriori, MAP), BFGS 提供 了 一 种 近似 梯度 的 数值 计算 方法 使 
导 , 而 高 维 情境 下 此 和 抑 阵 的 推导 是 非常 繁琐 的 。Stark 使 


需要 的 黑 森 矩阵 (Hessian Matrix) 的 推 


究 者 可 以 免 去 MAP 中 所 


method 参数 为 L-BFGS-B 来 实现 。 在 题目 


了 DFPMIN (Press et al., 1986) 来 实现 BFGS 算法 ， 也 可 在 R 中 通过 指定 optim 函数 中 


参数 标定 这 一 环节 ，GGUM 最 近 几 年 在 参数 估计 


上 也 有 了 较 多 的 突破 (Roberts & Thompson, 2011), 并 有 相关 的 R 包 GGUM (Tendeiro & Castro- 


Alvarez, 2018), mirt (Chalmers, 2012) 和 bmggum(Tu et al., 2021) 支 持 。 


TIRT 是 基于 


践 者 使 月 


Excel 宏 (http://annabrown.name/software)。 而 在 thurstonianIRT 包 中 ，Biirkner 提供 


结构 方程 模型 3 


结构 方程 建 模 软件 ) 和 开源 R 包 thurstonianIRT (Biirkner, 2018) 可 月 


开发 的 ， 


昌 提 出 时 间 较 长 ， 现 有 多 种 成 熟 的 软 人 


F( 如 Mplus 等 


其 参数 估计 。 为 方便 实 


HF 


H, Brown 和 Maydeu-Olivares (2012) 提 供 了 输入 测验 设计 就 可 以 导出 Mplus 语句 的 


了 数据 模 


拟 的 函数 ， 并 作为 一 个 接口 供用 户 选择 lavaan 包 (Yves Rosseel, 2012), Mplus 或 者 Stan(Stan 


Development Team, 2020) 来 作为 模型 拟 合 的 内 在 处 至 


成 三 种 方法 的 代码 (Biirkneret al., 2019)。 在 Mplus 或 lavaan 中 ， 题 目 


小 二 乘法 


贝 叶 斯 模型 ， 因 


的 估计 可 使 用 期 望 后 验算 法 (Expected A Posteriori, EAP) 或 MAP，EAP if 


于 维度 数量 较 多 时 (Brown, 2016), 


2 个 时 ，MAP 适 月 


的 数值 积分 的 节点 数 呈 指数 级 增长 。 


T 


因 


IR TIRT 配套 软件 的 


方法 ， 


并 可 根据 用 户 提供 的 信息 自 
参数 可 使 用 未 加 权 的 最 


动 生 


或 对 角 加 权 最 小 二 乘法 来 估计 。 而 Stan 是 一 种 概率 
此 Biirkner 也 提供 了 使 TIRT 能 够 采 月 


H MC 


ee 


MC 


语言 , 使 用 MCMC 来 拟 合 
计 的 方便 接口 。 潜 在 特质 
] 于 维度 数量 为 1- 


口 


开发 为 实践 者 提供 了 极 大 的 便利 性 ， 这 也 是 TIRT 应 


之 一 ， 但 也 存在 一 些 质疑 ， 如 Biirkner 等 (2019) 在 使 月 


因为 维度 数 


E. 
里 


升 高 时 ， 会 导致 EAP 中 


] 广 泛 的 原 


H Mplus 和 Lavaan 拟 合 TIRT 时 发 现 


有 严重 的 模型 无 法 收敛 问题 , 特别 是 在 大 型 测验 的 条 件 下 (如 5 维度 测验 , 每 维度 有 27 个 题 
块 ， 模 型 收敛 率 仅 0.3 左右 )。 除 此 之 外 还 需要 较 高 的 运行 内 存 ( 如 30 维度 测验 ， 每 维度 有 9 


个 题 块 ， 模 型 需要 32GB 的 运行 内 存 )， 否 则 需要 在 代码 中 指定 不 计算 1 


指标 以 减少 运行 时 间 和 运行 压力 。 最 常见 的 报错 是 方差 为 负 , 通常 需 
子 载荷 来 促进 收敛 , 但 估计 结果 同样 也 会 非常 依赖 这 些 回 
时 没有 不 收敛 和 内 存 不 够 的 问题 ， 这 得 益 于 贝 叶 斯 算法 的 自身 优势 。 因 


模型 识别 上 的 敏感 怕 


分 保证 题目 的 质量 


Æ 


需要 考虑 运行 内 存 的 问题 。 否 则 模型 不 收敛 或 因 


响 测 验 开 发 者 对 测验 质量 和 模型 的 信心 。 最 后 从 估计 速度 上 来 说 , 可 能 | 


EE， 如若 在 维度 较 高 


FE 方 和 标准 误 等 拟 合 


要 指定 维度 间 关 系 或 因 


的 测验 中 考虑 使 月 


EIE. 使 


H TIRT， 需 要 在 测验 7 


J MCMC 方法 拟 合 TIRT 
此 ， 考 虑 到 TIRT 在 
于 发 时 就 要 充 


,如 对 题目 进行 单 维 性 检验 以 保证 题目 的 单 维 性 特征 。 


在 选择 估计 方法 时 ， 


加 权 的 最 小 二 乘法 是 有 限 


言 息 估 计 方 法 


内 存 受 限 而 无 法 获得 任何 估计 结果 会 非 


A, FAY 
TH 困 乡 


的 未 


于 Mplus 有 条 


， 在 相同 的 测验 条 伯 


H 


会 快 数 倍 ， 因 此 在 非 大 型 测验 情境 下 ， 


E 荐 先 使 月 


J 


H Lik ras AP Mplus i 


ER, HEHE stan 的 估计 速度 通常 


行 分 析 。 


与 TIRT 所 采用 的 传统 估计 方法 不 同 ， 后 来 模型 的 提 HH 


8 者 均 将 参数 估计 算法 落脚 在 了 


MCMC 上 。 它 是 一 种 概率 派 、 全 信息 的 参数 估计 方法 ， 不 需要 复杂 的 数学 推导 ， 仅 需 研 究 
者 构建 合理 的 后 验 概率 分 布 函数 ， 并 可 以 实现 与 频率 派 算 法 ( 极 大 似 然 估计 等 ) 相 似 的 估计 精 


FE. MUPP-2PL. GGU 


M-RANK, RIM 和 BRB-IRT 模型 均 采用 了 Metropolis-Hasting MCMC 


分 ， 但 它们 所 依托 的 估计 软件 


IRT 使 用 OpenBUGS 3.2.3 (Lunn et al., 2009), RIM 则 使 月 


算法 , 基于 迫 选 数据 进行 题目 和 能 力 参数 的 联合 估计 。 它 们 在 先 验 信息 的 选择 上 并 无 明显 区 


所 不 同 。GGUM-RANK 使 用 的 是 Ox(Doornik, 2009), BRB- 


H WinBUGS (Spiegelhalter et al., 2003) 


或 JAGS (Plummer, 2003)， 此 外 当 维 度数 量 少 于 4 个 时 ，RIM 推荐 在 ConQuest(Adams et al., 


2015) 软 件 或 者 R 包 TAM(Kiefer et al., 2016) 中 选择 MMLE $ 


法 使 用 的 是 Stan 语言 ， 


Monte Carlo) 抽 样 方法 ， 大 


法 进行 参数 估计 。 在 这 些 软 件 


中 ，WinBUGS 和 OpenBUGS 相对 比较 慢 ， 而 Birkner 等 (2019) 针 对 TIRT 开发 的 MCMC 方 
由 于 其 采用 了 更 先进 的 NUTS(No-U-Turn sampler) 或 HMC(Hamiltonian 


昼 提 升 了 估计 速度 。 在 模型 收敛 的 评价 标准 上 ， 它 们 均 采 用 了 


Gelman 和 Rubin(1992) 的 R 统计 量 ( 低 于 1.2 则 说 明 参 数 已 收敛 )。 虽 然 这 些 模型 均 没 有 较 大 


的 收敛 性 问题 , 但 需要 实践 人 员 比 较 深入 地 了 解 MCMC 相关 的 知识 和 实施 步 又， 且 MCMC 


方法 的 主要 缺点 是 估计 时 间 较 长 (Kim & Bolt 2007)， 如 BRB-IRT 的 一 个 模拟 条 件 (1000 名 被 
试 ，3 个 维度 ， 共 8 个 RANK-3 题 块 ， 重 复 次 数 为 25) 需 要 长 达 6 天 的 时 间 才 能 完成 估计 。 

针对 各 类 模型 参数 估计 方法 的 总 结 见 表 5。 
表 5 模型 参数 估计 方法 总 结 


参数 估计 方法 


使 用 软件 


优点 


不 足 


was 
1. 基 于 李 克 特 式 量 
数据 预 标 定 题目 参数 
2.BEGS 估计 能 


OF 


1.R &: GGUM/mirt/bmggum 
2. DFPMIN/R 包 : stats 


先 
标定 便于 自 适 目 参 数 估计 能 力 存 在 题 


在 迫 选 数据 上 使 用 李 克 特 


Y & 


数 跨 测验 形式 不 一 致 的 风险 


Mpl 高 维 情 境 下 不 易 收敛 ， 内 存 占 
加 权 的 最 小 二 乘法 /对 S 估计 用 时 短 , 易 “、 - 

R 包 : thurstonianIRT 用 过 高 ， 有 时 需 舍弃 拟 合 指标 
角 加 权 最 小 二 乘法 ie 性 强 本 

(Mplus/Lavaan 方法 ) 的 计算 
Ox/WinBUGS/JAGS/ 
OpenBUGS 、 
MCMC 无 收敛 性 问题 估计 用 时 长 ， 易 用 性 不 足 


R 包 : thurstonianIRT (Stan 77 
法 ) 


5 ”应 用 研究 现状 


迫 选 IRT 模型 被 广泛 应 


于 工业 组 织 心理 


学 领域 , 如 TIRT 在 多 种 商业 化 测验 中 得 到 了 


应 用 ， 如 OPQ32r(Occupational Personality Questionnaire) 和 CCSQ(Customer Contact Styles 


Questionn) 两 


DAS BER FAI 
al., 2016). 7E 360 度 反 馈 测 验 中 也 被 记 


性 格 测验 (SHL, 2018; Brown & Maydeu-Olivares, 2011)， 也 被 用 于 开发 评估 适 


的 测验 (Assessment of Work-Related Maladaptive Personality Traits) (Guenole et 


F 实 使 用 迫 选 题 型 的 测验 并 采用 TIRT 进行 计 分 比 使 用 


传统 李 克 特 评分 题目 有 更 好 的 结构 效 度 与 聚合 效 度 (Brown et al., 2017)。MUPP-GGUM 在 员 


工人 格 自 适应 测验 (the Adaptive Employee Personality Test, Adept-15)(Aon Hewitt, 2015) 和 美国 


军队 选拔 所 开发 的 自 适 应 人 格 测评 工具 TAPAS(Tailored Adaptive Personality Assessment 


System) (Stark et al., 2014) 上 得 以 应 用 ， 这 2 个 测验 也 是 迫 选 模型 在 计算 机 化 自 适 应 方向 的 


突破 性 尝试 。 同时 , BASRA 


的 检验 方法 也 


的 证 据 。 因 此 ， 本 文 将 对 迫 选 模型 在 参数 不 变 怕 


E 检 验 作为 测验 开发 流程 的 一 个 重要 环节 ,在 迫 选 模型 上 


FE 逐步 被 开发 与 完善 。 在 实践 人 员 更 加 关注 的 效 度 研究 领域 , 也 积累 了 相当 多 


方面 进行 迫 选 模型 应 用 下 


5.1 参数 不 变性 检验 


性 可 根据 不 变性 情境 分 为 2 个 


通常 ， 测 验 开发 者 需要 对 题目 参数 的 不 变 怕 
有 作答 者 对 题目 的 理解 或 者 题 


究 的 现状 分 析 。 


目 所 表达 的 内 涵 是 相同 的 。 在 迫 


\ 体 问题 ; 跨 题 块 一 致 性 和 跨 人 和 群 


的 题目 意味 着 其 作答 概率 会 受到 除 测量 目标 外 其 他 因素 的 影响 。 


跨 题 块 一 致 性 是 指 同 


题 块 1{A,B,C} 和 题 块 2{A,D,E}, 它 人 


题目 在 与 不 同 题目 组 合 为 题 块 时 ， 其 
门 的 共同 题目 为 A 描述 ,如 果 A 
估计 结果 差异 不 大 ， 则 说 明 参 数 没 有 受到 其 他 题目 的 影响 ， 


FE 检 验 、 计 算 机 化 自 适 应 测验 和 效 度 研究 3 个 


进行 检验 (也 即 测量 一 致 性 检验 )， 以 保证 所 
选 测验 情境 下 , 题目 参数 不 变 
一 致 性 。 不 上 共有 参数 不 变性 


i=) 
FE 


否 上 共有 参数 不 变性 , 如 有 


的 题目 参数 在 两 题 块 的 


有 跨 题 块 参数 不 变性 。Lin 和 


Brown (2017) 基 于 TIRT 模型 ， 比 较 了 RANK-3 和 MOLE-4 两 种 题 型 的 两 套 迫 选 测验 的 参数 
不 变性 ， 后 者 仅 在 前 者 的 每 个 题 块 上 新 增 了 一 道 题目 ， 所 以 每 对 题 块 之 间 的 共同 题 比 例 为 
759%6， 结 果 发 现 仅 有 少量 题目 存在 较 大 偏差 。 


跨 人 群 一 致 性 是 指 一 道 


题目 如 


E 来 自 不 同 背景 的 人 条 


组 (如 不 同性 别 、 不 同文 化 背景 、 不 


同 测验 情境 的 人 群 ) 之 间 是 否 


A 


参数 不 变性 ， 而 对 此 不 变性 的 检验 也 称 之 为 题目 功能 性 差 


异 检验 (Differential Item Functioning, DIF)， 如 果 题 目 参 数 在 不 同 组 之 间 发 生 了 较 大 改变 ， 就 


意味 着 此 题 


TRUE, HARA EH 


A 


的 作答 概率 会 受到 个 体 
E。 在 开发 迫 选 测验 时 ， 首 先 需 确 


Ab =E 


月 JK 


的 影 


有 良好 的 测 


响 , 如 果 测 验 中 包含 较 多 此 类 题目 将 会 降低 测 


保单 题 题 库 具 


En py, 


量 学 指标 ， 


区 分 度 指 标 、 没 有 DIF 等 (Stark etal., 2005; SHL, 2018)， 这 些 题 目 质量 分 析 通 常 


如 可 接受 的 
采用 李 克 特等 单一 刺激 量 表 形 式 进行 ， 但 
组 别 的 人 群 因为 题目 情 


选 数据 进行 DIF 检验 是 势 在 必 行 的 。 


H. Lee 


出 了 通过 模型 的 整体 拟 合 指数 差异 来 检验 TIRT 测量 不 变 怕 


F 


分 析 方 法 ， 


invariance) fll} 


=E. 
里 


截 距 指 标 提 


综合 


ANA 


Wald 检验 TIRT DIF 方法 (omnibus Wald tests)， 并 通过 模拟 研究 证 


eI DIF 量 的 增加 ， 检 出 率 接近 


当 题 目 组 合 为 题 块 时 ， 则 可 能 产 4 


境 发 生 改 变 而 产生 与 单一 刺激 题目 不 同 的 反应 偏好 )。 因 此 ， 基 于 和 迫 


并 建议 将 ACET > 0.007 #1 ACFI > 0.001 分 别 作为 尺度 非 一 致 和 
非 一 致 性 (scalar non-invariance) 的 临界 值 ， 但 此 方法 无 法 
筛 查 ， 而 题目 层面 的 参数 非 一 致 必 
出 了 一 种 
明 在 自由 基线 (freebaseline) 方 法 下 检 出 效率 较 高 : 随 着 样本 是 


E 新 的 DIF( 不 同 


I Smith(2020b) 基 于 多 组 CFA(multiple group confirmatory factor analyses) 框 架 提 


E(Measurement Invariance, MI) 的 


具体 到 题 


E 即 为 DIF. P. Lee 等 (2020) 则 针对 TIRT 模型 的 区 分 度 和 


E(metric non- 


来 进 


> 


行 


1, 工 型 错误 率 接近 0.05. Qiu 和 Wang(2021) 提出 了 3 种 RIM FY DIF 检验 方法 , EMD (equal- 


mean-difficulty), AOS(all-other-statement)#!l CS(constant-statement) 方法 ， 最 终 通过 模拟 研究 


发 现 CS 方法 在 测验 含有 DIF 题目 时 的 表现 优 于 其 他 两 种 方法 。 


5.2 


于 人 类 性 格 特点 的 
量 了 32 个 性 格 维度 。 维 度 越 多 ， 意 味 着 所 需要 的 题目 


计算 机 化 自 适应 测验 


复杂 性 ,性 


za 


程度 。 从 个 体感 受 而 言 ， 


特别 是 在 j 


招聘 


EF 工具 的 测量 维度 也 通常 是 高 维 的 ， 如 OPQ32r 测 


也 越 多 ， 测 验 总 长 度 就 会 达到 惊人 的 


题 量 过 长 会 使 个 体 疲惫 度 增高 进而 对 测验 感到 厌烦 导致 粗心 作答 ， 


s 


快 使 对 个 体 所 有 维度 的 评估 都 能 达到 一 个 可 靠 的 程 
测评 上 花费 的 时 间 和 成 本 。 而 解决 以 上 问题 的 思路 之 
在 15 “FAT, ihe CAT 测验 就 已 经 在 美 


id 


KE 


度 ， 从 而 提升 测 


国 海军 人 员 选 氢 


性 更 高 的 维度 的 题目 ， 
FE 效率 ， 降 低 企 业 招聘 在 
就 是 开发 CAT 版 本 的 迫 选 测验 。 


X 


境 下 使 用 时 , 甚至 会 对 应 聘 企业 或 测评 提供 方 产生 不 好 的 印象 。 从 测评 效率 
来 说 ,， 当 个 体 在 茶 些 维度 上 通过 少量 题目 己 经 达到 可 接受 的 测评 精度 时 , 即 可 以 对 个 体 在 i 
些 维度 上 有 比较 确定 的 判断 , 在 后 续集 中 投放 对 其 评价 不 确 


og 


Fala 
已 


月 


得 到 了 应 


] ， 该 测验 由 


Houston 等 人 (2006) 开 发 ， 全 称 为 美国 海军 


Personality Scales, NCAPS)， 共 测量 了 19 个 性 格 维度 。 


前 能 力 抽 取 同 一 维度 下 处 于 两 端的 题目 并 参考 其 称 询 


PICK-2 题 型 (可 使 用 单 维和 多 维 题 块 ) 的 # 


F 性 水 平 进行 配对 ， 
2 题 型 的 自 适 应 测验 。Stark 等 人 (2012) 在 MUPP-GGUM 的 基础 上 提出 了 适用 于 多 上 


Ie 6 个 步骤 的 人 迫 


在 3 


47 Fa 


选 自 适应 流程 ， 


区 别 是 需要 考虑 单 维 题 块 的 比例 和 预先 遍历 并 存储 多 引 


4 


FE 自 适应 人 格 量 表 (Navy Computer Adaptive 
EF 估 时 ， 会 依据 个 体 当 


因此 其 为 单 维 PICK- 


EE- 单 


维 
与 传统 CAT 最 大 的 


E 题 块 的 维度 组 合 


区 式 。 如 对 于 一 个 3 


度 的 测验 ， 它 的 维度 组 合 形式 有 1-1、2-2、3-3、1-2、1-3、2-3， 并 在 此 基础 上 控制 内 容 的 


平衡 。 为 了 加 速 对 特质 水 平 的 估计 , 该 流程 推荐 使 用 环形 维度 链接 策略 (Circular Dimensional- 


Linking), 即使 用 最 少 的 题 块 链接 所 有 的 维度 , 如 一 个 5 维度 测验 可 使 
EHH Y CAT 相 比 非 CAT 对 效率 的 提升 是 非常 明显 的 ， 迫 选 
的 题目 就 能 达到 同样 的 准确 性 。 另 外 ，TAPAS 也 是 为 美 


3-4、4-5、5-1。 以 上 两 个 研究 均 订 
只 需要 非 自 适应 测验 一 


队 选 拔 所 开发 的 自 适 应 人 格 测评 了 


CAT 


H 


一 一 人、 


给 


EREZA 1-2, 2-3, 


国 军 


， 同 样 基于 MUPP-GGUM (Stark et al., 2014). 


除 以 上 提 及 的 配对 题 型 的 迫 选 CAT 测验 外 ， 近 期 Joo 等 人 (2020) 基 于 GGUM-RANK 提 


ETER 
而 在 Stark 等 人 (2012) 的 而 


HF RANK 题 型 的 迫 选 CAT 方法 ， 并 通过 模拟 研究 指出 单 维 题 块 似乎 不 是 必须 的 ， 


究 中 推荐 加 入 总 题 量 5% 的 单 维 题 块 。 


Chen 等 (2020) 提出 了 3 种 子 库 选 题 策略 (subpool selection strategies) 来 提升 选 题 效 率 和 


控 人 


由 题目 曝光 率 ， 这 三 种 策略 分 别 为 序列 策略 (The Sequential Strategy)、 多 项 式 策 略 (The 


Multinomial Strategy) 和 高 SE 策略 (The High-SE Strategy)。 序 列 策略 与 Stark 等 人 (2012) 的 第 


[Sg 
需要 3 


一 步 相 似 ， 
合 数 ， 每 个 组 合 内 由 
量 开始 循环 
形式 曝光 的 风险 ，{ 

库 ， 如 果 最 大 测验 长 度 被 限 


E 构 建 所 有 维度 
各 维度 的 题 


至 达到 终 1 


yy 


EERE. H 


由 题 ， 


T 


略 通过 根据 多 项 式 分 布 随机 选择 子 题库 来 解决 序列 策略 的 问题 。 
1] 取 题 块 数 工 ， 给 出 每 个 子 题库 的 抽取 概率 


测验 长 度 工 和 预 设 的 在 每 个 子 题库 所 
P 


target 


库 1 被 抽取 到 的 概率 为 0.1。 根 据 概率 进 


先 判定 个 体 在 哪些 维度 上 具有 最 高 的 SE, F 


= 了 /上 。 例如: 当 测 验 长 度 为 100 且 预 设 子 题库 1 
行 随机 抽取 题 
达到 其 在 了 中 的 预 设 值 后 ,剔除 该 题库 后 重新 计算 概率 ， 再 进 
有 选择 对 应 维度 组 合 的 子 题库 题 块 。 与 全 题库 


的 组 合 形式 ， 如 6 维度 的 RANK-3 测验 ， 将 有 20 种 维度 组 
形成 一 个 子 题库 。 接 下 来 ,将 从 各 个 组 合 题库 内 依据 信息 
日 于 每 个 被 试 都 按 这 个 顺序 进行 抽 题 ,会 有 题目 组 合 
更 值得 担心 的 是 当 维 度数 量 过 多 时 ， 如 12 个 维度 时 会 产生 220 个 子 题 
制 为 50 题 ， 将 会 导致 170 个 子 题库 的 题目 不 被 抽 到 。 多 项 式 策 


当 确 定 


| 取 10 题 时 


子 题库 后 ,根据 目标 


, T[1]=10, +a 


库 ， 当 某 个 子 题库 已 抽取 的 题 块 数量 
行 后 续 抽 取 。 高 SE 策略 则 是 


> 


取 策 略 下 用 时 (6.72s) 相 比 ， 子 题库 抽取 策略 下 用 时 均 有 下 降 ， 全 部 在 1s 以 内 ， 且 测量 精度 
没有 明显 下 降 。 但 为 了 达到 相似 测量 精度 ,序列 策略 所 用 的 题 块 数量 要 高 于 其 他 策略 , 同时 ， 
高 SE 策略 在 内 容 平衡 方面 表现 较 差 ， 多 项 式 策略 综合 表现 更 优 。 

此 外 ,针对 题目 曝光 率 的 控制 ,Chen 等 (2020) 提 出 了 RSHO(revised Sympson-Hetter online) 


方法 。 在 进行 题 块 选择 时 ， 先 根据 信息 量 确定 最 适合 题 块 ， 计 算 该 题 块 中 每 个 题目 在 备 选 题 


库 中 和 已 作答 题 块 中 的 数量 ， 分 别 除 以 已 作答 题 块 数 形成 P(S) 和 P(A) 。 再 将 P(S) 和 


P(A) 与 题目 最 大 曝光 率 了 作对 比 ， 形 成 该 题目 描述 的 pks, pks 具体 计算 方式 如 下 : 


0, P(A)=r 


pks = , P(A)<rand P(S)>r (20) 


ie 
P(S) 
1, P(A)<rand P(S)<r 

对 于 一 个 题 块 , 会 形成 多 个 pks, 选取 题 块 内 数值 最 小 的 pks 形成 题 块 的 pk 值 , 再 生 
成 一 个 0 到 1 之 间 的 随机 数字 与 pk 进行 对 比 ， 若 随机 数字 小 于 pk 则 抽 题 ， 否 则 剔除 该 


题 块 后 重复 以 上 步骤 。P(S) 和 了 (A) 的 初始 值 设置 为 0， 且 在 每 次 选 题 时 均 需要 重新 计算 


pk 值 。RSHO 方法 在 稍微 牺牲 测量 精度 的 前 提 下 控制 了 题目 的 曝光 率 。 
WLI CAT 测验 的 重 测 信 度 这 一 问题 ，Seybert 和 Becker(2019) 指 出 题目 不 一 致 带 来 的 
误差 降低 了 CAT 测验 的 重 测 信 度 ， 因 为 在 测验 施 测 过程 中 受到 作答 者 能 力 、 选 题 策略 等 多 
方面 影响 ， 很 难 找到 完全 相同 的 两 份 CAT 试卷 ,所 以 CAT 的 重 测 信 度 更 像 是 传统 测验 的 复 
本 重 测 信 度 (在 不 同时 间 点 对 个 体 施 测 2 份 复 本 测验 )。 其 研究 表明 迫 选 CAT 测验 的 重 测 信 
度 低 于 传统 李 克 特 式 量 表 ， 但 与 传统 李 克 特 式 量 表 的 复 本 重 测 信 度 相当 。 


5.3 WEAR 


由 迫 选 IRT 模型 获得 的 潜在 特质 分 数 是 否 能 反应 出 个 体 的 真实 特点 ， 为 了 回答 这 一 问 
题 ， 研 究 者 主要 从 4 个 方向 进行 了 探索 。 首 先是 探索 迫 选 IRT 计 分 是 不 是 比 传 统计 分 对 洪 
在 特质 及 其 之 间 关 系 的 恢复 性 更 好 (Hontangas et al., 2015; Hontangas et al., 2016; Oswald et al., 
2015)。 相 比 传统 计 分 ， 使 用 迫 选 IRT 模型 进行 特质 分 数 的 估计 能 带 来 显著 的 测量 精度 的 提 
升 ， 这 几乎 是 这 个 方向 所 有 研究 共同 的 结论 ， 也 给 了 研究 者 极 大 的 信心 去 开发 更 多 的 迫 选 


IRT 模型 , 但 也 有 Wang 等 (2017) 对 模型 中 潜在 特质 O 不 一 样 的 解读 思路 和 Schulte 等 (2021) 


指出 并 非 在 所 有 情境 下 采用 TIRT 模型 都 能 利用 到 IRT 的 优良 性 质 ， 甚 至 在 高 维 情境 下 得 到 
的 分 数 依 然 是 部 分 自 模 的 。 此 外 还 有 Walton 等 (2020) 的 研究 指出 TIRT 模型 在 大 五 人 格 量 表 
上 区 分 效 度 不 如 传统 计 分 下 自 模 式 数据 。 那 么 从 这 些 模 型 中 拿 到 的 分 数 能 在 多 大 程度 上 被 理 
解 为 传统 的 常 模 性 分 数 还 值得 更 多 的 研究 去 探索 , 因为 这 直接 关系 到 这 些 分 数 是 否 能 够 像 党 
模 性 分 数 那样 做 人 员 选 拔 的 应 用 或 与 外 部 效 标 进行 关联 性 分 析 。 而 第 二 个 方向 则 试图 通过 探 
索 迫 选 IRT 与 李 克 特 式 单一 刺激 量 表 得 到 的 潜在 特质 分 数 之 间 的 关系 (Zhang et al., 2020; 
Watrin et al., 2019; Joubert et al., 2015; Guenole et al., 2016) 来 回答 上 述 问 题 ， 在 这 些 研究 中 单 
一 刺激 量 表 分 数 被 认为 最 符合 个 体 潜在 特征 的 真 值 , 如 果 通 过 人 迫 选 模型 得 到 的 分 数 与 其 在 分 
数 原点 、 尺 度 和 维度 关系 上 均 能 保持 较 高 的 相似 性 也 就 证 明了 三 者 的 等 价 性 , 那么 就 能 像 使 
用 李 克 特 式 量 表 结 果 那 样 来 对 迫 选 模型 得 到 的 结果 做 相关 的 分 析 了 。 第 三 个 方向 是 探索 迫 选 
测验 的 抗 作假 能 力 。 当 匹配 了 迫 选 题 块 内 的 社会 称许 性 时 , 迫 选 测验 的 抗 作假 能 力 要 优 于 李 
克 特 式 量 表 (Wetzel et al., 2020)。 与 用 TIRT 分 析 人 迫 选 测验 相 比 ， 利 用 等 级 反应 模型 (Graded 
Response Model, GRM) 分 析 李 克 特 式 量 表 无 法 有 效 区 分 高 能 力 者 ， 因 为 作答 者 倾向 表现 得 更 
好 ， 导 致 那些 能 够 体现 个 体高 能 力 的 题目 的 区 分 度 较 低 (Dueber et al., 2018)。 第 四 个 方向 则 
是 探索 迫 选 IRT 模型 在 非 自 评 情境 下 的 使 用 。 因 为 他 评 李 克 特 式 量 表 同 样 存在 共同 方法 偏 
差 , 不 同 评估 人 的 评价 受 其 内 在 理想 行为 标准 的 影响 , 导致 评分 者 一 致 性 信 度 较 低 。 当 在 360 
度 评 估 中 应 用 人 迫 选 IRT 模型 时 , 相 比 李 克 特 式 量 表 , 不 同 层级 评估 人 的 评分 者 一 致 性 信 度 上 
升 ， 题 目的 结构 效 度 也 更 好 (Brown et al., 2017). 


H 
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人 迫 选 IRT 模型 的 研究 依然 具有 很 大 的 潜力 ， 尤 其 是 在 非 认 知 类 、 高 利害 情境 测评 的 应 用 上 。 
结合 已 有 研究 未 解决 的 问题 提出 以 下 几 个 对 未 来 研究 的 展望 方向 : 模型 拓展 研究 、 题 目 参数 
不 变性 研究 、 人 迫 选 CAT 研究 和 效 度 研究 。 


6.1 ”模型 拓展 研究 


目前 已 有 的 迫 选 模型 均 适 用 于 常规 题 型 ， 如 PICK-2，RANK-3。 未 来 还 可 以 探索 这 些 模 


型 是 否 可 以 通过 对 数据 的 重新 编码 来 支持 Q 分 类 题 型 。 男 外 ,还 存在 PICK-2 题 型 的 变 体形 


ae 


式 ， 如 Adept-15 测验 (Aon Hewitt, 2015)， 即 在 让 候选 人 选择 最 符合 自己 的 一 项 时 ， 同 时 给 出 


选择 此 项 的 意愿 程度 ( 见 表 6)， 因 此 可 称 之 为 PICK-2 的 多 级 计 分 形式 。 
表 6 PICK-2 多 级 计 分 
比较 符合 非常 符合 
A 寻找 事物 的 不 足 y 
B 探索 陌生 的 领域 
这 种 题 型 细 化 了 个 体 的 选择 行为 ， 理 论 上 提供 了 更 多 信息 量 ， 从 原来 的 2 个 计 分 点 ， 扩 
充 至 了 4 个 , 但 也 增加 了 题目 的 认 知 负荷 ， 因此 似乎 只 能 在 较 小 题 块 中 使 用 。 还 未 发 现 有 直 


接 的 模型 来 拟 合 此 种 题 型 的 数据 ， 多 级 计 分 版 本 的 迫 选 模型 的 研究 有 待 探索 。 


6.2 ”基于 各 模型 的 参数 不 变性 研究 


针对 参数 的 跨 题 块 一 致 性 问题 ， 延 续 Lin 和 Brown (2017) 针 对 TIRT 的 研究 ， 当 共同 题 
比例 降低 时 , 是否 还 能 有 较 高 比例 的 题目 的 参数 具有 跨 题 块 不 变性 还 有 待 研究 。 另外 针对 其 
他 模型 的 跨 题 块 一 致 性 的 研究 有 待 展 开 。 

目前 仅 有 针对 TIRT(H. Lee & Smith, 2020b; P. Lee et al., 2020) 和 RIM(Qiu & Wang, 2021) 
的 参数 不 变性 检验 的 研究 ， 未 来 研究 除了 需要 开发 其 他 迫 选 模型 DIF 检验 方法 ， 也 需 丰 
或 提升 已 有 的 DIF 检验 方法 ， 使 之 对 多 种 来 源 的 DIF 更 加 敏锐 。 


Hil 


6.3 iBA CAT 研究 


虽然 迫 选 CAT 在 实证 研究 上 积累 了 较 多 的 经 验 ， 但 已 开发 的 自 适 应 流程 在 进行 潜在 特 
质 估计 时 所 采用 的 题目 参数 均 为 通过 单一 刺激 量 表 数据 预先 标定 的 , 所 使 用 的 题库 均 为 单 题 
题库 ， 并非 题 块 库 ,在 进行 题目 选择 时 将 即时 进行 题目 的 组 合 形成 迫 选 题 块 ， 那么 题目 的 跨 
题 块 一 致 性 在 这 种 CAT 流程 下 对 潜在 特质 估计 的 影响 需要 进一步 研究 。 另 外 高 维 情境 下 题 
块 维度 组 合 形式 和 测验 长 度 均 会 大 幅 增加 , 这 对 内 容 平衡 和 测验 效率 带 来 了 挑战 , 未 来 可 进 
一 步 探 索 如 何在 高 维 情 境 下 发 挥 CAT 的 优势 。 虽 然 Chen 等 (2020) 提 出 的 子 题库 选 题 策略 和 
题目 曝光 控制 方法 不 涉及 计 分 相关 内 容 , 可 以 拓展 至 基于 其 他 非 RIM 模型 构建 的 CAT 测验 
中 , 但 具体 表现 如 何 还 需要 研究 去 探索 。 另外 ,多项式 策 略 等 控制 方法 无 法 直接 应 用 于 变 长 
测验 ， 未 来 可 进一步 探索 在 变 长 测验 中 如 何 构 建 更 合适 的 选 题 策略 。 


6.4 HERR 
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了 相似 的 结果 ， 以 此 来 证 明 其 抗 作 假 效 力 和 常 模 性 分 数 的 恢复 程度 , 但 二 者 在 测验 形式 上 的 
区 分 性 和 李 克 特 题 型 所 带 来 的 作答 反应 偏差 必然 会 引入 一 些 误差 , 未 来 如 何 最 大 限度 控制 这 
些 偏差 或 者 是 否 存 在 更 好 的 效 度 研究 思路 值得 探索 。 在 迫 选 形 式 上 ,， 题 块 越 大 ,抵抗 作假 能 
力 越 强 , 但 也 增加 了 认 知 负荷 (Wetzel et al., 2020), 在 未 来 研究 中 可 以 探索 抗 作假 效力 和 认 知 
负荷 在 题 块 大 小 上 的 平衡 点 。 男 外 ,已 有 的 效 度 研究 大 多 数 围绕 TIRT 展开 ,GGUM-RANK 
等 新 模型 的 效 度 研究 有 待 探索 。 


量 内 容 时 是 否 产 出 
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200062, China) 


Abstract: Forced-choice (FC) test is widely used in non-cognitive tests because it can control the 
response bias caused by the traditional Likert method, while traditional scoring of forced-choice test 
produces ipsative data that has been criticized for being unsuitable for inter-individual comparisons. 
In recent years, the development of multiple forced-choice IRT models that allow researchers to 
obtain normative information from forced-choice test has re-ignited the interest of researchers and 
practitioners in forced-choice IRT models. First, the six prevailing forced-choice IRT models are 
classified and introduced according to the adopted decision models and item response models. Then, 
the models are compared and summarized from two perspectives: model construction ideology and 
parameter estimation methods. Next, it reviews the applied research of the model in three aspects: 
parameter invariance testing, computerized adaptive testing (CAT) and validity study. Finally, it is 
suggested that future research can move forward in four directions: model expansion, parameter 


invariance testing, forced-choice CAT, and validity research. 
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